Hadoop
Bates chen
这个作者很懒,什么都没留下…
展开
-
HDFS体系结构
lNameNode lDataNode Secondary NameNode 事务日志 映像文件 NameNode 管理文件系统的命名空间 记录每个文件数据块在各个DataNode上的位置和副本信息 协调客户端对文件的访问 记录命名空间内的改动或空间本身属性的改动 NameNode使用事物日志记录HDFS元数据的变化。...原创 2019-03-29 15:29:58 · 281 阅读 · 0 评论 -
使用python pyhdfs操作hadoop 出现ConnectionError: HTTPConnectionPool(host='bigdata-senior03.chybinmy.com'
gaierror Traceback (most recent call last) C:\Users\mr-chen\Anaconda3\envs\hadoop\lib\site-packages\urllib3\connection.py in _new_conn(self) 158 c...原创 2019-03-31 10:35:32 · 4257 阅读 · 1 评论 -
HDFS设计基础与目标
硬件错误是常态。因此需要冗余 由于各种可能硬盘错误等,需要对数据进行备份,所以需要冗余,在运行过程中需要备份。冗余是HDFS额外嵌入的功能,而不是额外的需求。 流式数据访问。即数据批量读取而非随机读写,Hadoop擅长做的是数据分析而不是事务处理 大规模数据集 简单一致性模型。为了降低系统复杂度,对文件采用一次性写多次读的逻辑设计,即是文件一经写入,关闭,就再也不能修改 针对大量读很少写这种...原创 2019-03-29 11:02:59 · 162 阅读 · 0 评论