- 博客(2)
- 收藏
- 关注
原创 Spark性能优化 -- > Spark SQL、DataFrame、Dataset
博客内容将首发在微信公众号"跟我一起读论文啦啦",上面会定期分享机器学习、深度学习、数据挖掘、自然语言处理等高质量论文,欢迎关注!本博文将详细分析和总结Spark SQL及其DataFrame、Dataset的相关原理和优化过程。Spark SQL简介Spark SQL是Spark中 具有 大规模关系查询的结构化数据处理 模块。spark sql支持大规模的分布式内存计算,并且模糊了RD...
2020-01-31 23:37:41 1273
原创 spark性能优化 -- > spark工作原理
从本篇文章开始,将开启spark学习和总结之旅,专门针对如何提高spark性能进行总结,力图总结出一些干货。无论你是从事算法工程师,还是数据分析又或是其他与数据相关工作,利用spark进行海量数据处理和建模都是非常重要和必须掌握的一门技术,我感觉编写spark代码是比较简单的,特别是利用Spark SQL下的DataFrame接口进行数据处理,只要有python基础都是非常容易入门的,但是在性能...
2020-01-12 22:51:54 472 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人