Hadoop 01

一、大数据概论
1.大数据概念:
无法在一定时间内使用常规工具进行管理的数据集合是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2.大数据主要解决:
海量数据的存储和海量数据的分析计算问题。
3.大数据的特点:
Volume(大量),Velocity(高速),Variety(多样性),Value(低价值密度)
4.大数据作用:
O2O:百度大数据+平台通过先进的线上线下打通技术和客流分析能力,助力商家精细化运营,提升销量。
零售:探索用户价值,提供个性化服务方案;贯穿网络与实体零售,携手创造极致体验。
旅游:深度结合大数据能力与旅游行业需求,共建旅游产业智慧管理、智慧服务和智慧运营的未来。
商品广告推荐:给用户推荐访问过的商品广告类型。
保险:海量数据挖掘及风险预测,助力保险行业精准营销,提升精细化定价能力。
金融:多维度体现用户特征,帮助金融机构推荐优质客户,防范欺诈风险。
房产:大数据全面助力房地产行业,打造精准投资决策与营销,选出更合适的地,建造更合适的楼,卖给更合适的人。
人工智能领域。
5.企业数据部的业务流程分析:
产品人员提需求(统计总用户数、日活跃用户数、回流用户数等),数据部门搭建数据平台、分析数据指标,数据可视化(报表展示、邮件发送、大屏幕展示等)
企业数据部的一般组织结构:
平台组:Hadoop、Flume、Kafla、Strom、spark等框架平台搭建,集群性能监控,集群平台性能调优。
数据仓库组:ETL工程师-数据清洗,Hive工程师-数据分析、数据仓库建模。
数据挖掘组:算法工程师,推荐系统工程师,用户画像工程师。
报表开发组:JavaEE工程师。
6. Hadoop创始人:
Doug Cutting。思想来源:谷歌的三篇论文(HDFS,MapReduce,Hbase)。Doug Cutting。思想来源:谷歌的三篇论文(HDFS,MapReduce,Hbase)。
7. Hadoop三大发行版本
Apache版本-最原始的版本,Cloudera-在大型互联网企业中用的较多,Hortonworks文档较好。
8. Hadoop优势:
高可靠性,因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。
高扩展性,在集群间分配任务数据,可方便的扩展以千计的节点。
高效性,在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
高容错性,自动保存多份副本数据,并且能够自动将失败的任务重新分配。
11. Hadoop组成:
HDFS,一个高可靠、高吞吐量的分布式文件系统。
MapReduce,一个分布式的离线并行计算框架。
YARN,作业调度与集群资源管理的框架。
Common,支持其他模块的工具模块。
HDFS架构概述:
NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。
YARN架构概述:
ResourceManage(rm):处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度。
NodeManager(nm):单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicaationMaster的命令。
ApplicationMaster:数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错。
Container:对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关信息。

11.linux 安装jdk与hadoop
1.使用普通用户(这里使用dd)登录,切换到 /opt 目录下,创建目录software用于存放安装文件,创建目录module存放解压后的文件。
2.使用 ll 命令在opt目录下查看software与module的权限,使用命令:sudo chown 组名:用户名 目录名或文件名将权限改成dd,具体操作命令为:sudo chown dd:dd module/ software/
3.由于dd是普通用户,因此步骤2会因为权限不足而无法执行。这时,就需要为用户dd提升权限。使用命令 :vi /etc/sudoers ,找到
## Allow root to run any commands anywhere
root ALL=(ALL) ALL ## 将光标移到这行,按yy复制这一行,再按p将这一行粘贴到下面。
## 按i进行修改操作:
dd ALL=(ALL) ALL
按esc键退出编辑模式,按wq!进行保存。这时用户dd就具有了和root一样的权限,当然实际工作中,不能给普通用户赋予这么高的权限。
4.再次执行步骤2。使得module 和software的所属用户变成dd。
5.使用远程连接工具SecureCRT 中的 SecureFX或其它途径将jdk与hadoop压缩包放到software目录中。
6.将software中的安装文件的所属用户权限修改为dd,操作命令为:sudo chown dd:dd jdk… hadoopp…
7.接下来进行jdk的解压,将当前目录切换到/opt/software/,使用命令 【tar -zxvf 文件名 -C 解压目标路径】进行解压,这一步解压的命令为:tar -zxvf jdk -C /opt/module/
8.配置jdk环境变量,解压完成以后,将当前目录切换到jdk解压后的目录下,使用pwd命令可以查看当前路径,便于复制。将解压后的jdk的目录字符串复制,使用命令sudo vi /etc/profile进行文件修改,按下shift+G,使得当前光标移到文件尾部,按下i进入编辑模式,在文件尾部添加如下:
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk… ## 声明变量
export PATH= P A T H : PATH: PATH:JAVA_HOME/bin ## 修改变量PATH
按esc键退出编辑模式,使用命令wq进行保存。
9.重新加载profile文件,使用命令source /etc/profile 进行重新加载。
10.使用java 和javac命令进行jdk安装测试。至此,jdk安装完成。
11.接下来仿照步骤7对hadoop进行解压,具体命令为:tar -zxvf hadoop… -C /opt/module/
12.仿照步骤8进行hadoop环境变量配置。先进入hadoop安装目录下,使用pwd命令查看当前路径,并复制当前路径。使用sudo vi /etc/profile 进行文件修改,在文件尾部加上:
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.2 ## 声明变量
export PATH= P A T H : PATH: PATH:HADOOP_HOME/bin ## 修改变量PATH
export PATH= P A T H : PATH: PATH:HADOOP_HOME/sbin ## 修改变量PATH
按esc键退出编辑模式,使用命令wq进行保存。
13.重新加载profile文件,使用命令source /etc/profile 进行重新加载。
14.使用hadoop命令进行hadoop安装测试。至此,hadoop安装完成。
11.查找案例:

 hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input/ output 'dfs[a-z.]+'

12.单词统计:
首先在hadoop根目录下使用命令:【mkdir wcinput】创建wcinput 文件夹,在wcinput文件夹中使用命令【touch wc.input】创建一个文件,并用vi命令打开,在里面输入一些单词,保存并退出到hadoop根目录下,输入命令字符串:

 hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput

13.遇到的问题以及解决方案:
启动namenodewu报错,使用jps无namenode启动时间。可能是由于修改配置文件(core-site.xml与hdfs-site.xml)后没有进行格式化。格式化一次后,再启动namenode,使用jps可以看到namenode启动的时间。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值