大数据
何不快哉
这个作者很懒,什么都没留下…
展开
-
Hive常见知识点
1, Hive一行转多行: later view explode函数可以把一行数据通过split函数切为多片作为一个新的列呈现,示例: CREATE TABLE MY_TABLE1 AS SELECT MID,DEVICE,APP FROM BASE.TMP_TABLE LATER VIEW EXPLODE(SPLIT(APPLIST, ',')) R1 AS APP; 表BASE.TM...原创 2019-01-02 19:36:04 · 281 阅读 · 0 评论 -
HDFS架构
HDFS架构: hdfs是一个应用广泛的分布式文件系统。一个hdfs文件系统由一个NameNode,一个Secondary NameNode和多个DataNode组成。NameNode管理系统的元数据,DataNode是实际存储数据的单元,secondary NameNode用来管理edits文件。 HDFS的优点: 1,适合做大数据的处理(GB,TB,PB级的数据存储,百万以上的文件数量); 2...原创 2019-01-02 19:51:36 · 175 阅读 · 0 评论 -
Spark入门
(一) Spark简介 Spark 是专门为大数据处理而设计的快速、易用、通用和进行复杂分析的计算框架。 Spark与Hadoop的对比(★★★★★) Hadoop和spark均是大数据框架,都提供了一些大数据任务的处理工具。但确切讲,他们执行的任务并不相同,彼此不是相互排斥的。虽然在特定的情况下,spark要比Hadoop的计算快很多,但它没有一个分布式的存储系统。而分布式存储系统是大数据处理...原创 2019-01-02 19:52:40 · 160 阅读 · 0 评论 -
pyspark中dataframe缺失值填充
在工作中我们经常面对各种缺失值的处理,当使用pandas,缺失值可以使用fillna,指定method=ffill或bfill就能实现 缺失值的前向或后向填充。但是在spark应用中,需要稍微做一些改变。比如说我们先创建一个DataFrame: df = spark.createDataFrame( [("a", 1, '2019-06-15 13:20'), ("a",2, None),("...原创 2019-07-29 20:50:58 · 6678 阅读 · 4 评论