--- Spark
spark
数据指北Ai
知名国企开发工程师,目前大数据和后端开发,致力全栈。欢迎交流!!!
展开
-
Spark SQL实现日志离线批处理
一、 基本的离线数据处理架构: 数据采集 Flume:Web日志写入到HDFS 数据清洗 脏数据 Spark、Hive、MR等计算框架来完成。 清洗完之后再放回HDFS 数据处理 按照需要,进行业务的统计和分析。 也通过计算框架完成 处理结果入库 存放到RDBMS、NoSQL中 数据可视化 通过图形化展示出来。 ECharts、HUE、Zeppelin ...转载 2018-06-13 15:30:09 · 1478 阅读 · 8 评论 -
Spark SQL项目中的优化思路
存储格式的选择: 采取行式还是列式存储?列存储写入时次数多,损耗时间多反过来查询的时候较快 压缩格式的选择: 考虑压缩速度和压缩文件的分割性压缩能够较少存储空间、提高数据传输速度 Spark中默认的压缩格式是“snappy” 代码的优化: 选择的高性能的算子:foreachPartition => partitionOfRecords.foreach 获得每一条数据分区的好处是把par...原创 2018-06-13 15:34:04 · 636 阅读 · 0 评论