![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
kangshuangzhu
这个作者很懒,什么都没留下…
展开
-
HDFS存储文件的特点
HDFS(Hadoop File System),是Hadoop的分布式文件存储系统 ,但其本质上仍然是一个文件的存储系统,所以文件存储的命令大多数可以在HDS上直接使用。所以HDFS最主要的特点是存储的方式上:1.HDFS是对数据进行分块存储,块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,之前的版本中是64M。 这样可以对所有节...原创 2019-09-11 11:48:02 · 4354 阅读 · 0 评论 -
HDFS文件的操作
HDFS的文件操作有自己的特点:1.安全模式 :Namenode启动后会进入一个称为安全模式的特殊状态。处于安全模式的Namenode是不会进行数据块的复制的。Namenode从所有的 Datanode接收心跳信号和块状态报告。块状态报告包括了某个Datanode所有的数据块列表。每个数据块都有一个指定的最小副本数。当Namenode检测确认某个数据块的副本数目达到这个最小值,那么该数据块就会...原创 2019-09-11 11:49:46 · 643 阅读 · 0 评论 -
在zepplin中使用pyspark进行数据查询和数据处理
pyspark是一个API,通过这个API可以使用python来操作spark。参考文献:http://spark.apache.org/docs/latest/api/python/一 、spark基础,sparkcontext,sparkconf在spark中任何工作都是从SparkContext开始,包括我们平时用的sql查询。所以开始之前必须先建立一个sparkcontext。而s...原创 2019-09-11 15:00:39 · 1116 阅读 · 1 评论