自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

OnTheRoad的博客

在路上

  • 博客(5)
  • 收藏
  • 关注

原创 Spark Sql 性能调优

对于某些工作负载,可以通过在内存中缓存数据或打开一些实验选项来提高性能。 在内存中缓存数据 Spark SQL可以通过调用spark.catalog.cacheTable(“tableName”)或使用内存中的列式格式来缓存表.dataFrame.cache()。然后,Spark SQL将仅扫描所需的列,并自动调整压缩以最小化内存使用和GC压力。可以调用spark.catalog.uncacheT...

2019-01-12 15:30:46 10031

原创 Spark Sql 聚合

聚合 DataFrames可以提供共同聚合,例如count(),countDistinct(),avg(),max(),min()等。虽然这些功能是专为DataFrames,星火SQL还拥有类型安全的版本,在其中的一些 斯卡拉和 Java的使用强类型数据集的工作。此外,用户不限于预定义的聚合函数,并且可以创建自己的聚合函数。 无用户定义的聚合函数 扩展UserDefinedAggregateFun...

2019-01-12 15:27:16 10133

原创 Spark Sql&DataFrame&RDD&DataSet

SparkSQL SparkSQL用来处理那些不能够用sql来进行处理的数据逻辑或者用sql处理起来比较复杂的数据逻辑。 使用sparkSQL是为了解决一般用sql不能解决的复杂逻辑,使用编程语言的优势来解决问题。 spark sql流程: 把数据读入到sparkSQL中,sparkSQL进行数据处理或者算法实现,然后再把处理后的数据输出到相应的输出源中。 数据源:hive数据仓库、json文...

2019-01-12 15:24:48 9791

原创 hive压缩&&hdfs合并小文件

hdfs合并小文件 hadoop fs -getmerge hdfs文件夹路径 合并本地的文件名 如果hdfs误删除文件或者hive误删除文件 /user/hadoop/.Trash/Current 这个地址下有文件备份,文件备份保留七天(core配置文件可以设置) hive压缩 压缩的好处: (执行查询时会自动解压) 可以节约磁盘的空间,基于文本的压缩率可达40%+; 压缩可以增加吞吐量和性...

2019-01-04 11:18:53 10968

原创 大数据流量分析

参考地址:https://baijiahao.baidu.com/s?id=1591089406130813973&wfr=spider&for=pc 数据分析的思路 1、基于用户的使用路径,包括用户的操作(点击、返回、退出)、流失(如:注册流程增加一个跳转,用户的流失率)、停留时间(例如用户在某个商品的浏览时间) 2、基于产品的节点,包括用户转化率和占比,例如:通过某一个推...

2019-01-04 10:52:25 10894

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除