大数据开源
文章平均质量分 69
大数据开源
木子一个Lee
你好
展开
-
大数据开源框架环境搭建(八)——Storm完全分布式集群的安装部署以及编程实践(自带的WordCountTopology的例子)
Ubuntu 18.04系统3台Storm 0.9.6(一定要是此版本才有WordCountTopology的例子)原创 2023-02-18 20:39:38 · 2193 阅读 · 0 评论 -
大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署
操作系统:Ubuntu 18.04Spark版本:2.4.0。原创 2023-02-18 20:06:54 · 3140 阅读 · 1 评论 -
大数据开源框架环境搭建(六)——Hive完全分布式集群的安装部署
操作系统:Ubuntu 18.04Hadoop版本:3.1.3Hive版本:3.1.2JDK版本:1.8Mysql版本:5.7.4。原创 2023-02-18 19:35:36 · 3292 阅读 · 1 评论 -
Zookeeper安装配置
此教程是与大数据开源框架系列配套的(相关路径、host名和登录名每个人可能不一样),在我主页里有。原创 2023-02-18 17:15:03 · 5479 阅读 · 0 评论 -
大数据开源框架环境搭建(五)——Hbase完全分布式集群的安装部署
把最后一行的注释去除(解决hadoop和hbase的jar包冲突问题,为了不让hbase扫描hadoop的jar包),并且添加(第三条很重要!HBASE_MANAGES_ZK=true,则使用HBase自带的Zookeeper进行管理,只能实现单机模式,常用于测试环境,不能用于生产环境。HBASE_CLASSPATH用于引导HBase找到Hadoop目录,一定要改成hadoop的目录,不然无法识别Hadoop集群名称。启动Hadoop—>启动HBase—>关闭HBase—>关闭Hadoop。原创 2023-02-18 17:36:55 · 6612 阅读 · 14 评论 -
使用MobaXterm进行远程登录
Ip地址那里也可以填host名即hostname。计算机名(host名)为hostname。Ip地址为192.168.75.115。假如我的登录用户名为name。2.下载Mobaxterm。原创 2023-02-18 16:17:22 · 2420 阅读 · 0 评论 -
大数据开源框架环境搭建(四)——HDFS完全分布式集群的安装部署
普通用户下大部分命令需要加sudo,root模式下不用。如果怕麻烦,直接在root用户下操作。本框架的分布式集群如下图所示(IP地址不一定跟图中一样)原创 2023-02-17 21:16:16 · 3914 阅读 · 0 评论 -
大数据开源框架之基于Spark的气象数据处理与分析
本次实验所采用的数据,从中央气象台官方网站(网址:http://www.nmc.cn/)爬取,主要是最近24小时各个城市的天气数据,包括时间整点、整点气温、整点降水量、风力、整点气压、相对湿度等。正常情况每个城市对应24条数据(每个整点一条)。数据规模达到2412个城市,57888条数据,有部分城市部分时间点数据存在缺失或异常。特别说明:实验所用数据均为网上爬取,没有得到中央气象台官方授权使用,使用范围仅限本次实验使用,请勿用于商业用途。原创 2023-01-02 12:20:19 · 12689 阅读 · 28 评论 -
大数据开源框架之基于Hive的数据分析
在Hive Shell模式下,创建数据库hive,并根据上面给出的usr表格,在数据库hive下设计用户表usr。设计完后,用show命令查看hive数据库下包含的所有表,用describe命令查看表usr的基本信息,并给出截图。查询hanmei 的兴趣爱好,并给出截图。新建一个与usr表拥有相同列的空表new_usr,并把usr中数据插入到new_usr中,并给出截图。把文件usr_add.txt文件中内容增加到usr表中,并给出截图。其中,文件usr_add.txt中内容为:原创 2023-01-02 12:02:51 · 1570 阅读 · 0 评论 -
大数据开源框架之利用MapReduce查找最大值和最小值
继承Mapper类,执行map任务,输入为读取的数字,形式是,key为起始字节偏移量(实际上并未用到),valie为数值;,继承Reducer类,执行reduce任务,输入为,key为固定键K,list(value)就是一系列数字,然后循环比较大小,输出为,。,用于设置一些作业参数,包括设置主类,Mapper类和Reducer类,输出类型、输入输出地址和提交作业。首先导入相关jar包。原创 2023-01-02 11:57:33 · 1711 阅读 · 0 评论 -
大数据开源框架之HBase编程实践
HBase的安装部署请看:(还没写完)任务1:用HBase提供的HBase Shell命令实现以下指定功能:1.列出HBase所有的表的相关信息初始状态:新建一个Person表,再查看:属性有性别sex,年龄age,姓名name2.在终端打印出指定的表的所有记录数据;Person表添加数据后再查看:3.向已经创建好的表添加和删除指定的列族;原创 2023-01-02 11:35:53 · 3999 阅读 · 5 评论 -
大数据开源框架之HDFS编程实践
新建一个文件系统对象,利用静态方法get,得到路径和访问配置项对象获得对应文件系统。新建一个文件系统对象,利用静态方法get,得到路径和访问配置项对象获得对应文件系统。新建一个文件系统对象,利用静态方法get,得到路径和访问配置项对象获得对应文件系统。新建一个文件系统对象,利用静态方法get,得到路径和访问配置项对象获得对应文件系统。新建一个文件系统对象,利用静态方法get,得到路径和访问配置项对象获得对应文件系统。新建一个文件系统对象,利用静态方法get,得到路径和访问配置项对象获得对应文件系统。原创 2023-01-02 11:05:10 · 1758 阅读 · 2 评论 -
解决org.apache.hadoop.security.AccessControlException: Permission denied: user=XXX,access=WRITE.......
在使用Java API操作HDFS时如果出现如下错误提示:有3种解决方法:1.在程序的main方法里面,最上面一行加入 2.在文件系统FileSystem创建对象时,表明“你的用户名”3.在hdfs的配置文件hdfs-site.xml中,将dfs.permissions修改为False(不推荐,可能不成功)原创 2022-12-04 00:24:33 · 2825 阅读 · 3 评论 -
Hbase配置项粗解
hbase.client.write.buffer:htable客户端写缓冲区大小,默认是2097152BYTE,这个缓冲区就是为了写数据的临时存放,设置大了,浪费客户端和服务端的存储,设置小了,如果写的数据多,太多的RPC又带来网络开销,官方给的一个服务端存储耗费评估计算是:hbase.client.write.buffer*hbase.regionserver.handler.count,服务端的rs的处理handler个数也很关键;也可以延迟加载,由HTableDescriptor指定;转载 2022-10-30 12:49:28 · 1315 阅读 · 0 评论 -
解决Hadoop完全分布式集群中从节点jps没有datanode节点问题
也是进入这个目录,只不过namenode中的name文件在datanode是变为了data文件,即/tmp/dfs/data/current。当用start-dfs.sh和start-yarn.sh后,在slave节点(从节点)中用jps命令查看进程。有时候可能发现没有Datanode,即只有两项(第一项和最后一项)。clusterID替换掉datanode的clusterID就可以了。然后打开VERSION,把namenode的。打开,记录namedode下的。原创 2022-10-23 22:08:37 · 9181 阅读 · 14 评论 -
ubuntu配置环境变量的方法
Linux环境变量配置在自定义安装软件的时候,经常需要配置环境变量,下面列举出各种对环境变量的配置方法。下面所有例子的环境说明如下:14.0用户名:uusamaLinux读取环境变量export命令显示当前系统定义的所有环境变量echo $PATH命令输出当前的PATH环境变量的值这两个命令执行的效果如下其中PATH变量定义了运行命令的查找路径,以冒号:分割不同的路径,使用export定义的时候可加双引号也可不加。转载 2022-10-22 11:49:37 · 8214 阅读 · 0 评论 -
ubuntu中环境变量文件/etc/profile、.profile、.bashrc、/etc/bash.bashrc之间的区别和联系
此文件类似于/etc/bashrc或/etc/bash.bashrc,不需要重启生效,重新打开一个bash即可生效, /etc/bashrc或/etc/bash.bashrc对所有用户新打开的bash都生效,但~/.bashrc只对当前用户新打开的bash生效。为每一个运行bash shell的用户执行此文件.当bash shell被打开时,该文件被读取.如果你想对所有的使用bash的用户修改某个配置并在以后打开的bash都生效的话可以修改这个文件,修改这个文件不用重启,重新打开一个bash即可生效。转载 2022-10-22 11:42:17 · 4203 阅读 · 0 评论 -
Linux(Ubuntu)配置不同用户的环境变量
在某个用户下安装的服务或者工具,只添加到该用户下的环境变量的配置文件中,在其他用户下找不到对应的命令。2、如果修改的是 root 用户下的配置文件,执行 source /root/.bashrc。1、在 root 用户下安装某个服务或者工具,在普通用户下的shell中使用却发现未安装。2、在普通用户下安装某个服务或者工具,在 root 用户下的shell中使用却发现未安装。1、如果修改的是普通用户下的配置文件,执行 source .bashrc。在其他用户的配置文件中添加对应的环境变量。转载 2022-10-22 11:38:19 · 1133 阅读 · 3 评论 -
解决配置了/etc/profile/下环境路径刷新后,重新打开或切换用户失效的问题
在最后加上环境变量内容。原创 2022-10-22 11:35:21 · 2546 阅读 · 0 评论 -
sudo、sudo -s、sudo -i、su 区别
su 切换到某某用户模式,提示输入密码时该密码为切换后账户的密码,用法为“su 账户名称”。: 暂时切换到超级用户模式以执行超级用户权限,有时间限制,Ubuntu默认为一次时长15分钟。正常 su 应该输入对应账户的密码,但是使用sudo,只需要输入当前用户的密码就可以了。输出的都是自己当前用户的密码而不是超级用户的密码。,密码也为超级账户的密码。,跳转到/root,拥有超级管理员权限。转载 2022-10-22 11:25:09 · 4354 阅读 · 0 评论 -
大数据开源框架环境配置(三)——打开Ubuntu虚拟机,设置root密码,安装VMware Tools,设置共享文件夹
虚拟机里的/mnt/hgfs/share也有了(在其他位置->计算机->mnt->hgfs->share里),而且你在宿主机里修改这个新建文件夹,虚拟机也会更新。或sudo /usr/local/vmware-tools-distrib vmware-install.pl。输入sudo ./和刚才复制的名字,即sudo ./vmware-install.pl。然后输入passwd root回车,设置密码(一个两次,输入一次,还要重复一次)先复制压缩包的名字(右键压缩包,点击属性,复制名字)原创 2022-10-05 17:21:59 · 2158 阅读 · 0 评论 -
大数据开源框架环境配置(二)——下载Ubuntu18.04.6镜像并在虚拟机安装Ubuntu(Node1)
修改内存为2048(就够用的了)选择网络适配器,选择NAT模式。选择CD/DVD,选择镜像文件。设置用户名密码,选择自动登录,不要有数字,尽量不要用大写字母。确定,然后打开虚拟机。原创 2022-10-03 23:38:18 · 1576 阅读 · 0 评论 -
大数据开源框架环境配置(一)——安装VMware
2.安装VMware。原创 2022-10-03 23:36:43 · 753 阅读 · 0 评论