大数据
文章平均质量分 83
一子三木
这个作者很懒,什么都没留下…
展开
-
hive-常用元数据表结构
常用元数据表在使用Hive进行开发时,往往需要获得己存在 Hive表的建表语句 ( Data D efinitionL anguage, DDL) ,然而Hive本身并没有提供这样一个工具 。 要想还原建表 DDL 就必须从元数据入手 。 Hive 的元数据并不存放在 HDFS 上 ,一般存放在MySQL、 Derby中表名说明TBLS所有Hive表的基本信息TABLE_PARAM表级属性,如是否外部表、表注释等COLUMNSHive 表字段信息(字段注释 ,原创 2020-06-15 22:19:24 · 459 阅读 · 0 评论 -
启动hdfs报错 Incompatible clusterIDs
进行了一次(非首次)hdfs namenode -format命令后,启动hdfs,发现datanode没有启动,通过看日志发现有如下的报错信息:java.io.IOException: Incompatible clusterIDs in /Users/soft/dev/BigData/hadoop-2.10.0/data/dfs/data: namenode clusterID = CID-62694e49-58bb-4d8c-a6d6-f1421c671d78; datanode clusterID原创 2020-06-15 15:37:56 · 343 阅读 · 0 评论 -
HDFS常用命令
HDFS命令命令 说明 样例 -help 输出这个命令参数手册 hdfs -help -ls 显示目录信息 hdfs dfs -ls / -mkdir 在hdfs上创建目录,-p:创建父目录 hdfs dfs -mkdir /hadoop/local -appendToFile 将一个或者多个文件添加到HDFS系统中 hdfs dfs -appendToFile a.txt b.txt /hadoo...原创 2020-06-04 11:17:01 · 230 阅读 · 0 评论 -
Spark学习笔记之学习spark过程
目的关于大数据,14年就有那么一点点小打算学习,结果拖到18年了,这大半年深深体会到数据的重要性,数据才是一个企业宝贵的财富,所以就想搞搞大数据,做做分析。所以现在给自己历下flag一定要学习一个技术,现先就从Spark学习。 学习过程最开始买了一本《Spark最佳实践》,看完的体会是,基本上都是讲spark基础知识,实践很少,这算是一本入门书籍。由于现在的工资跟数据分析没有关系,...原创 2018-10-23 22:00:13 · 191 阅读 · 0 评论 -
RDD基本操作
定义RDD是弹性分布式数据集(Resilient Distributed Dataset), RDD 其实就是分布式的元素集合。就像List,Array,Set,Map集合。在 Spark 中,对数据的所有操作不外乎创建 RDD、 转化已有 RDD 以及调用 RDD 操作进行求值。而在这一切背后, Spark 会自动将RDD中的数据分发到集群上,并将操作并行化执行。用户可以使用两种方法创建 R...原创 2018-10-30 19:26:59 · 757 阅读 · 0 评论