Hadoop基础入门
一.hadoop是什么
Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。今年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hadoop方面的投入。
二 .hadoop能干什么
hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中的自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25新更新,天猫的推荐系统是hive,少量尝试mahout!)
三.hadoop的核心
1.HDFS: Hadoop Distributed File System 分布式文件系统
2.YARN: Yet Another Resource Negotiator 资源管理调度系统
3.Mapreduce:分布式运算框架
一 . 安装和配置Java运行环境
使用软件:
点击拉取下载的安装包JDK与Hadoop
2.解压jdk到 /usr/local
3.配置环境变量,进入vi /etc/profile文件中添加内容 必须对应/usr/local
让配置生效
测试版本
安装配置hadoop
- 先解压hadoop到指定文件夹 /usr/local
tar -zxvf hadoop-2.7.6.tar.gz -C /usr/local/
2.进入hadoop查看目录
hadoop根目录:
hadoop-2.7.6/share/hadoop目录
3.修改hadoop的相关配置文件
修改防止/usr/local/ hadoop-2.7.6/etc/hadoop中的hadoop-env.sh拿不到JAVA_HOME变量
vi /usr/local/hadoop-2.7.6/etc/hadoop/hadoop-env.sh
修改 vi core-site.xml 配置文件
vi /usr/local/hadoop-2.7.6/etc/hadoop/core-site.xml
继续在/usr/local/hadoop-2.7.6/etc/hadoop路径下修改 vi hdfs-site.xml配置文件
vi /usr/local/hadoop-2.7.6/etc/hadoop/hdfs-site.xml
复制mapred-site.xml.template改名为mapred-site.xml输入以下命令进行文件改名
cd /usr/local/hadoop-2.7.6/etc/hadoop/
cp mapred-site.xml.template mapred-site.xml
然后修改该文件(vi mapred-site.xml)
接下来配置yarn框架的配置文件( vi yarn-site.xml )
关闭防火墙 systemctl stop firewalld.service
进入vi /etc/profile
添加一下配置
export HADOOP_HOME=/usr/local/hadoop-2.7.6
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
source /etc/profile 执行一下刚刚修改的文件
.输入hadoop namenode -format格式化(看到上面的successfully说明文件系统格式化成功)
描述在/usr/local/hadoop-2.7.6/data/dfs/name/current/生成镜像文件
启动程序在/usr/local/hadoop-2.7.6/sbin
进入 vi /etc/profile 添加内容
执行文件
执行 start-dfs.sh, yes, 输入密码 password :root
查看启动服务