大数据技术
文章平均质量分 90
doublexiao79
这个作者很懒,什么都没留下…
展开
-
大数据技术--实验07-Storm的安装与使用【实测可行】
比如,你向一个运行中的集群增加了节点。再平衡命令将会停用拓扑,然后在相应超时时间之后重分配worker,并重启拓扑。它会以一种安全的方式销毁一个拓扑,首先停用拓扑,在等待拓扑消息的时间段内允许拓扑完成当前的数据流。我们能够挂起或停用运行中的拓扑。当停用拓扑时,所有已分发的元组都会得到处理,但是。#配置storm UI(为了避免与spark的8080瑞口冲突,改为8089)#配置supervisor:两个slave,对应两个worker进程。二、Storm常用操作命令。先开启hdfs和yarn。原创 2024-07-19 22:41:59 · 481 阅读 · 0 评论 -
大数据技术--实验06-Spark的安装与使用【实测可行】
下面详细讲解有关Hadoop2.6.0上的spark1.5.2集群如何搭建。原创 2024-07-19 22:39:31 · 1020 阅读 · 0 评论 -
大数据技术-实验05-MapReduce实践【实测可行】
2)拷贝hadoop的安装目录的MapReduce Example的jar包到/opt目录下。1)拷贝02-上机实验/user.csv到客户端机器/opt目录下,并上传至HDFS。1)拷贝02-上机实验/ds.txt到客户端机器/opt目录下。这样的路径,可以避免这一问题,也可以设置环境变量来解决。3)运行MapReduce任务,导入数据。4)查看HBase 中user表的数据。下,解决的办法很简单,只要移除其中一个。②将HFile数据导入user表中。包后,则不会再出现上述错误提示。4)查看任务的输出。原创 2024-07-19 22:37:01 · 685 阅读 · 0 评论 -
大数据技术--实验04-Hive的安装与使用【实测可行】
1)在Hive的官网http://mirrors.cnnic.cn/apache/hive/ 下载Hive,其文件为:apache-hive-1.2.1-bin.tar.gz。这里可以看到表中是有数据的,同时数据存储在指定的/user/root/hivedemo中,并没有存储在默认的/user/hive/warehouse中;visits_data.txt数据一共包含6列,分别对应名字,姓,访问时间,计划访问时间,地点,备注,使用“\t”进行分隔。3)修改/etc/profile文件,添加必要变量。原创 2024-07-19 22:34:16 · 1140 阅读 · 0 评论 -
大数据技术--实验03-HBase的安装与使用【实测可行】
在HBase的官网http://mirrors.cnnic.cn/apache/hbase/ 下载HBase,其文件为:hbase-1.0.1.1 -bin.tar.gz。在master机器进行配置即可,然后可以通过把配置文件拷贝的方式,下载到slave1和slave2,这样可以减少工作量。虚拟机配置好后,配置Hbase参考下表的服务分配来配置HBase。修改hbase-env.sh文件,添加JDK的配置。用户,保持用户权限的一致性,避免出现不必要的错误)。情况]―――――――――――――――。原创 2024-07-19 22:28:09 · 1240 阅读 · 0 评论 -
大数据技术--实验01-Hadoop的安装与使用【实测可行】
使用下面表中的软件版本进行配置:准备好后,按照下面的步骤进行配置。在VMWare主界面,点击“编辑”>“虚拟网络编辑”菜单进入虚拟网卡参数设置界面。选择VMnet8条目,点击“NAT设置”按钮后可以看到我们的VMWare Workstation为NAT连接的虚拟机设定的默认网关,此处为192.168.222.2,以及子网掩码,此处为255.255.255.0。原创 2024-07-19 22:16:25 · 1016 阅读 · 0 评论 -
大数据技术--实验02-HDFS实践【实测可行】
接上个实验01,启动hadoop集群,启动结束后使用jps命令列出守护进程验证安装是否成功。拷贝02-上机实验/ds.txt到客户端机器,运行下面的命令和结果对照。5)复制/移动/删除文件。# slave2 节点。没有启动,所以需要执行。2)查看文件夹权限。原创 2024-07-19 22:21:16 · 606 阅读 · 0 评论