Hadoop的综合应用

1.将待分析的文件(不少于10000英文单词)上传到HDFS
数据集:莎士比亚《十四行诗》,数据集共有194788行数据。
数据上传到HDFS:
在这里插入图片描述
2.调用MapReduce对文件中各个单词出现的次数进行统计
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.将统计结果下载本地。
在这里插入图片描述
在这里插入图片描述

4.将Hadoop的搭建(可查看林子雨论坛教程的截图,可以不进行重新安装软件)
到MapReduce文件上传、上述要求的过程、以及你的分析过程和分析结果,写成一篇博客,发布在CSDN上,字数不少于1000字

题目:莎士比亚《十四行诗》词频统计
过程:
(1)hadoop集群搭建
(1)创建虚拟机
首先在浏览器中输入网址,进入ubantu虚拟机官网,根据自身电脑配置,选择相应的虚拟机镜像,进行下载。
(2)安装虚拟机
在VMware工具中,点击新建虚拟机,出现如下图所示界面。在这里,我们选择自定义配置。在自定义配置中,用户可以对虚拟机中的网络、主机名等信息进行配置。

(3)下载JDK
在Linux系统中安装JDK分为两种方式。第一种方式是在windows平台中下载JDK安装包,通过第三方传输软件将其上传至虚拟机。第二种方式是利用wget或者yum命令,进行在线下载。使用第二种下载方式需要在linux虚拟机中预先安装该组件。本次系统设计采用的是第一种下载方式,通过Fzip传输工具将JDK安装包上传至虚拟机。JDK安装包是tar文件,所以要用tar -zxvf命令对其进行解压。解压界面如下图所示。
(4)配置java环境
Hadoop是Java编码的,首先要下载jdk1.7,然后配置系统环境变量。在终端通过java -version命令查看是否配置好jdk1.7。若输入命令后出现Java的版本信息等,证明配置成功。
在这里插入图片描述
(5)SSH免密登录
要构建Hadoop集群,就要确保集群结点间的无密码登录。要将集群结点中的所有主机名和对应的IP地址写到每台机器的//etc/hosts目录下。在确保每台机器安装好SSH server后可以在master结点使用SSH命令连通两个worker结点。连通成功后,将公钥信息authorize走keys复制到Workerl结点和Worker2结点中。这样Master再通过SSH登录两台Worker结点时就可以不需要密码了。
(6)Hadoop文件配置
修改core-site.xml的内容。主要是将属性fs.defaultFS设置为hdfs://master:9000。并为Hadoop添加临时文件存放路径hadoop.tmp.dir。
在这里插入图片描述

对hdfs-site.xml内容进行修改,将其中的dfs.replication属性设置为2,并为Hadoop集群设置dfs.namenode.name.dir的路径和dfs.datanode.data.dir的路径。
在这里插入图片描述

修改mapred-env.sh文件,导入jdk的安装目录。
最后修改yarn-site.xml文件,将yarn.resourcemanager.hostname属性设置为Master结点的主机名mastere更改slave文件的内容,需要将Hadoop集群中的结点名称包含在里面。
在这里插入图片描述

(8)启动集群。
在主节点hadoop安装目录下,执行命令:start-all.sh,启动hadoop集群。第一次启动需要对namenode将进行初始化操作。
在这里插入图片描述

(9)将数据集文件上传到hdfs:hadoop dfs -put data.txt /
在这里插入图片描述

(10)执行jar包:hadoop jar /home/hadoop/wordcount.jar com.mr.part1.WordCount
在这里插入图片描述

(10)查看结果:hadoop dfs -cat /output/part-r-00000

    ![在这里插入图片描述](https://img-blog.csdnimg.cn/20201224205146610.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2xhaWh1bnlpeGlh,size_16,color_FFFFFF,t_70#pic_center)
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
一、背景 随着互联网、移动互联网、物联网等技术的不断发展,以及社交、电商、在线视频、游戏等应用的飞速发展,数据量呈现爆炸式增长,数据处理和数据分析成为了当前互联网产业的热点和难点。在这种背景下,Hadoop作为一种分布式计算框架,得到了越来越广泛的应用。 二、案例介绍 本案例以一家电商公司为例,介绍如何利用Hadoop对大数据进行处理和分析,以提高企业的竞争力和盈利能力。 1. 数据收集 该电商公司的业务范围非常广泛,包括服装、家居、数码、食品等多个品类,每个品类下又包含大量的商品。因此,需要收集大量的数据,包括用户行为数据、商品数据、订单数据等。这些数据主要来源于网站、移动应用、第三方平台等。为了方便数据的处理和分析,需要将这些数据进行清洗和格式化处理,并存储到Hadoop集群中。 2. 数据处理 在数据收集之后,需要对数据进行处理,包括数据清洗、数据转化、数据聚合等。具体来说,需要对用户行为数据进行分析,包括用户访问行为、用户购买行为、用户评价行为等。对于用户访问行为,可以分析用户的访问路径、停留时间、访问频率等;对于用户购买行为,可以分析用户的购买时间、购买频次、购买金额等;对于用户评价行为,可以分析用户的评价内容、评价时间、评价分数等。通过这些数据的分析,可以了解用户的兴趣爱好、需求等,从而为企业的营销和产品策略提供参考。 3. 数据挖掘 在数据处理之后,需要对数据进行挖掘和分析,以发现潜在的规律和趋势。具体来说,可以利用Hadoop中的机器学习算法、数据挖掘算法等,对用户行为数据、商品数据、订单数据等进行分析和建模。通过这些模型的分析和预测,可以为企业的营销和产品策略提供参考。 4. 数据可视化 在数据挖掘之后,需要将分析结果进行可视化展示,以便企业管理层、营销团队等快速了解业务情况。具体来说,可以利用Hadoop中的可视化工具,如Hue、Zeppelin等,将分析结果以图表、表格等形式进行展示。通过数据可视化,可以帮助企业快速了解业务情况,及时调整营销策略、产品策略等,提高企业的竞争力和盈利能力。 三、总结 本案例以电商企业为例,介绍了如何利用Hadoop对大数据进行处理和分析,以提高企业的竞争力和盈利能力。通过数据收集、数据处理、数据挖掘和数据可视化等环节的综合应用,可以为企业提供全方位的数据支持,促进企业的发展和创新。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值