python大数据基础知识点(Hadoop+HDFS+MapReduce+Hive+Hbase)

                                                                          python大数据基础知识点

 

 

***概述

起源:Google 3篇论文   GFS ,MapReduce ,BigTable

Doug Cutting 写 Hadoop

HDFS - GFS,

MapReduce -- MapReduce,

HBase--- BigTable

 

hadoop主要分类

        1. apache组织的 开源版  互联网

         2. cloudera CDH

                 雇佣 Doug Cutting  4000美金

         3,Hortonworks 最初apache组织 hadoop的开发人员 创立12000美元 (10个)

 

一,大数据基础:

         1,4v特点:大量的;多样性(结构化-数据库,半结构化json,非结构化-音视频)

               快速的-处理数据快;价值-在海量没有价值的低价值的数据中获取有价值的

         2,数据怎么存?

         HDFS,hadoop分布式文件存储系统hadoop distributed file system

         主从式架构:nameNode,dataNode

         nameNode:维护目录结构;记录文件相关信息-权限大小所属组;DataNode与文件块对应关系 副本集。

         DataNode:以块的形式128M存储数据;存储副本集保证数据的安全;校验和,检验文件是否损坏。

        

         3,怎么运算,处理数据?

         移动代码,以MapReduce方式移动

         yarn集群机制来监控Map和Reduce处理数据,并调度计算机cpu内存网络等资源

 

 

二,搭建hadoop集群单节点:(伪分布式集群)

         1,设置网络、主机名和主机映射,关闭防火墙和selinux

         2,安装JDK

         3,上传并解压hadoop安装版:一般放置在/etc/opt/install/hadoop

                   tar -zxvf hadoopxxx.tar.gz -C /opt/install

        

         4,配置文件:hadoop环境jdk,hadoop四大模块配置

                   hadoop-env.sh  :export JAVA_HOME =/usr/java/jdk1.8xxx

                   hadoop_home/etc/hadoop/core-site.xml

                   hdfs-site.xml

                   yarn-site.xml

                   mapred-site.xml

         5,启动单集群单节点:

                   先初始化hadoop_home:bin/hdfs namenode -format

                   启动nameNone,dataNode,yarn-resourcemanager-nodemanager

                   jps查看进程

                   通过网络访问:

                   HDFS   http://hadoop.jun.com:50070

                       yarn   http://hadoop.jun.com:8088

 

三,HDFS系统的访问和操作:

         主从式架构,namenode对外client提供访问;

         访问和操作:存储、读取数据、删除数据、创建目录;

         客户端通过shell命令行和python代码来访问HDFS.

         1,常用shell命令:在hadoop_home下:

         bin/hdfs dfs -ls /

         bin/hdfs dfs -mkdir -p /xiaoming/daming

         bin/hdfs dfs -put 本地目录 /jun远程目录

         bin/hdfs dfs -text/-cat /jun  查看文本文件

         bin/hdfs dfs -get hdfs目录  本地目录:下载

         bin/hdfs dfs -rm -r /jun/text :删除

         bin/hdfs dfs -cp 原始位置 目标位置   复制

         bin/hdfs dfs -mv 原始位置 目标位置   移动

         2,垃圾箱保存时间:

         core-site.xml:

         <name>fs.trash.interval

         <value>10     0-不保存

         3,HDFS权限问题:客户端要上传文件需要

         hdfs-site.xml:

         <name>dfs.permissions.enabled

         <value>false

         4,python访问:

         pip install hdfs

         from hdfs import Client

         client = Client("http://192.xxx:50070")

         files = client.list('/')

         upload('/',‘text’); download('/jun','ce')

         delete('/jun',True);makedirs('jun');

         rename('')改名

         5,ssh免密登录:

         生成公私秘钥:ssh-keygen -t rsa

         (生成在~/.ssh目录下id_rsa是私,id_rsa.pub公)

         发送到远端主机:ssh-copy-id root@ip

         (会添加到远端主机的authorized_keys文件中)

 

四,HDFS集群搭建:

         1,设置网络、主机名和主机映射,关闭防火墙和selinux

         2,安装JDK

         3,所有节点安装相同版本hadoop安装版:一般放置在/etc/opt/install/hadoop

                   tar -zxvf hadoopxxx.tar.gz -C /opt/install

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值