2019年01月_OnTheRoad_Kang

07月 05月 04月 03月 02月 01月

原创 Spark Sql 性能调优

对于某些工作负载，可以通过在内存中缓存数据或打开一些实验选项来提高性能。在内存中缓存数据 Spark SQL可以通过调用spark.catalog.cacheTable(“tableName”)或使用内存中的列式格式来缓存表.dataFrame.cache()。然后，Spark SQL将仅扫描所需的列，并自动调整压缩以最小化内存使用和GC压力。可以调用spark.catalog.uncacheT...

2019-01-12 15:30:46 10031

原创 Spark Sql 聚合

聚合 DataFrames可以提供共同聚合，例如count()，countDistinct()，avg()，max()，min()等。虽然这些功能是专为DataFrames，星火SQL还拥有类型安全的版本，在其中的一些斯卡拉和 Java的使用强类型数据集的工作。此外，用户不限于预定义的聚合函数，并且可以创建自己的聚合函数。无用户定义的聚合函数扩展UserDefinedAggregateFun...

2019-01-12 15:27:16 10133

原创 Spark Sql&DataFrame&RDD&DataSet

SparkSQL SparkSQL用来处理那些不能够用sql来进行处理的数据逻辑或者用sql处理起来比较复杂的数据逻辑。使用sparkSQL是为了解决一般用sql不能解决的复杂逻辑，使用编程语言的优势来解决问题。 spark sql流程: 把数据读入到sparkSQL中，sparkSQL进行数据处理或者算法实现，然后再把处理后的数据输出到相应的输出源中。数据源：hive数据仓库、json文...

2019-01-12 15:24:48 9791

原创 hive压缩&&hdfs合并小文件

hdfs合并小文件 hadoop fs -getmerge hdfs文件夹路径合并本地的文件名如果hdfs误删除文件或者hive误删除文件 /user/hadoop/.Trash/Current 这个地址下有文件备份，文件备份保留七天（core配置文件可以设置） hive压缩压缩的好处： (执行查询时会自动解压) 可以节约磁盘的空间，基于文本的压缩率可达40%+; 压缩可以增加吞吐量和性...

2019-01-04 11:18:53 10968

原创大数据流量分析

参考地址：https://baijiahao.baidu.com/s?id=1591089406130813973&amp;wfr=spider&amp;for=pc 数据分析的思路 1、基于用户的使用路径，包括用户的操作（点击、返回、退出）、流失（如：注册流程增加一个跳转，用户的流失率）、停留时间（例如用户在某个商品的浏览时间） 2、基于产品的节点，包括用户转化率和占比，例如：通过某一个推...

2019-01-04 10:52:25 10894

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Spark Sql 性能调优

原创 Spark Sql 聚合

原创 Spark Sql&DataFrame&RDD&DataSet

原创 hive压缩&&hdfs合并小文件

原创 大数据流量分析

空空如也

空空如也

原创大数据流量分析