python大数据基础知识点（Hadoop+HDFS+MapReduce+Hive+Hbase）

最新推荐文章于 2024-07-20 03:45:47 发布

JUN.jun

最新推荐文章于 2024-07-20 03:45:47 发布

阅读量1.2k

点赞数

分类专栏：大数据（python）文章标签： hadoop HDFS Hive HBase MapReduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hahahaxhwy/article/details/89713733

版权

本文详细介绍了Python大数据的基础，特别是Hadoop生态，包括HDFS、MapReduce、Hive和HBase。讲解了Hadoop的起源、组件、集群搭建及高级理论，同时还涉及了HDFS的访问和操作、Hadoop集群搭建、HDFS的持久化、安全模式、SSH免密登录等。此外，还探讨了MapReduce模型和Hive的数据仓库功能，最后提到了NoSQL数据库HBase的特点和操作。

摘要由CSDN通过智能技术生成

python大数据基础知识点

***概述

起源：Google 3篇论文 GFS ,MapReduce ,BigTable

Doug Cutting 写 Hadoop

HDFS - GFS，

MapReduce -- MapReduce，

HBase--- BigTable

hadoop主要分类：

1. apache组织的开源版互联网

2. cloudera CDH

雇佣 Doug Cutting 4000美金

3，Hortonworks 最初apache组织 hadoop的开发人员创立12000美元（10个）

一，大数据基础：

1，4v特点:大量的；多样性（结构化-数据库，半结构化json，非结构化-音视频）

快速的-处理数据快；价值-在海量没有价值的低价值的数据中获取有价值的

2，数据怎么存？

HDFS，hadoop分布式文件存储系统hadoop distributed file system

主从式架构：nameNode,dataNode

nameNode:维护目录结构；记录文件相关信息-权限大小所属组；DataNode与文件块对应关系副本集。

DataNode：以块的形式128M存储数据;存储副本集保证数据的安全；校验和，检验文件是否损坏。

3，怎么运算，处理数据？

移动代码，以MapReduce方式移动

yarn集群机制来监控Map和Reduce处理数据，并调度计算机cpu内存网络等资源

二，搭建hadoop集群单节点：（伪分布式集群）

1，设置网络、主机名和主机映射，关闭防火墙和selinux

2，安装JDK

3，上传并解压hadoop安装版:一般放置在/etc/opt/install/hadoop

tar -zxvf hadoopxxx.tar.gz -C /opt/install

4,配置文件：hadoop环境jdk，hadoop四大模块配置

hadoop-env.sh :export JAVA_HOME =/usr/java/jdk1.8xxx

hadoop_home/etc/hadoop/core-site.xml

hdfs-site.xml

yarn-site.xml

mapred-site.xml

5,启动单集群单节点：

先初始化hadoop_home：bin/hdfs namenode -format

启动nameNone,dataNode,yarn-resourcemanager-nodemanager

jps查看进程

通过网络访问：

HDFS http://hadoop.jun.com:50070

yarn http://hadoop.jun.com:8088

三，HDFS系统的访问和操作：

主从式架构，namenode对外client提供访问；

访问和操作：存储、读取数据、删除数据、创建目录；

客户端通过shell命令行和python代码来访问HDFS.

1,常用shell命令：在hadoop_home下：

bin/hdfs dfs -ls /

bin/hdfs dfs -mkdir -p /xiaoming/daming

bin/hdfs dfs -put 本地目录 /jun远程目录

bin/hdfs dfs -text/-cat /jun 查看文本文件

bin/hdfs dfs -get hdfs目录本地目录：下载

bin/hdfs dfs -rm -r /jun/text :删除

bin/hdfs dfs -cp 原始位置目标位置复制

bin/hdfs dfs -mv 原始位置目标位置移动

2，垃圾箱保存时间：

core-site.xml:

<name>fs.trash.interval

<value>10 0-不保存

3，HDFS权限问题：客户端要上传文件需要

hdfs-site.xml:

<name>dfs.permissions.enabled

<value>false

4,python访问：

pip install hdfs

from hdfs import Client

client = Client("http://192.xxx:50070")

files = client.list('/')

upload('/',‘text’); download('/jun','ce')

delete('/jun',True);makedirs('jun');

rename('')改名

5，ssh免密登录：

生成公私秘钥：ssh-keygen -t rsa

(生成在~/.ssh目录下id_rsa是私，id_rsa.pub公)

发送到远端主机：ssh-copy-id root@ip

(会添加到远端主机的authorized_keys文件中)

四，HDFS集群搭建：

1，设置网络、主机名和主机映射，关闭防火墙和selinux

2，安装JDK

3，所有节点安装相同版本hadoop安装版:一般放置在/etc/opt/install/hadoop

tar -zxvf hadoopxxx.tar.gz -C /opt/install

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。