常见搭建方式:
一、使用框架进行快速 搭建,常见CDH(Cloudera Manager)和HDP(
)https://www.ibm.com/developerworks/cn/opensource/os-cn-bigdata-ambari/index.html
CDH安装有几个坑:
1.确保所有的hostname 写正确
2.初次进入时候需要取消AUTO-SSL,在配置文件里面也要将SSL改为0
3.检验parchael的时候需要保证钥匙一致,无需将SHA25后缀改成sha。
更多坑,参考https://yq.aliyun.com/articles/578800
二、使用docker或者kvm安装,见https://www.cnblogs.com/xuwujing/p/8150109.html
三、自用使用云平台
大数据集群常见接口:
https://blog.csdn.net/sheldonwong/article/details/79933787
Python 操作hadoop 常见包
1.MRJOB----> Mapreduce
2.Dumbo,Pydoop----->Mapreduce
3.hdfs --->hdfs
from hdfs import InsecureClient
hdfs_client = InsecureClient(url, user)