![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘工具
文章平均质量分 79
diggerTT
稳扎稳打,步步为营
展开
-
理工学---数据基础---大数据---数据挖掘工具---Spark SQL使用
pyspark.sql原创 2018-02-07 15:18:37 · 3576 阅读 · 1 评论 -
理工学---数据基础---大数据---pyspark使用方法练习
来源,官网spark1.6.1版本原创 2018-02-04 10:17:46 · 11168 阅读 · 4 评论 -
理工学---数据基础---大数据---数据挖掘工具---spark使用相关资料
这里列举的都spark1.6.1版本下的相关资料,其他版本只要在链接里改一下版本号即可。spark使用快速预览,地址;官网spark总的介绍资料,地址;spark集群模式介绍,地址;如何向spark集群提交应用程序,地址;如何在yarn模式下向spark集群提交应用程序,地址;python语言进行spark编程的pyspark库的相关接口地址;pyspark库相关类的源原创 2018-01-28 15:46:48 · 509 阅读 · 1 评论 -
理工学---数据基础---大数据---spark使用方法(一)
1、问题的起源之前的集群计算系统都是基于非循环的数据流模型,即从稳定的物理存储系统加载记录,传给一组确定性操作构成的DAG,然后在将得到的结果写回存储系统。这种方式如果用在迭代计算中,或者是交互式查询中(即不断的在数据子集中筛选数据),此时会存在大量的读磁盘和写磁盘及网络传输。通信开销大,整个计算效率会很低。 2、RDD的提出RDD(Resilient Distrubuted Da原创 2017-11-13 22:27:56 · 4041 阅读 · 1 评论 -
理工学---数据基础---大数据---spark使用方法(二)
Spark使用过程中报错汇总报错1: ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local[*]) 原因:出现这个错误是因为之前已经启动了SparkContext 解决方法:查看代码,看是否有多次运行SparkContext实例;也可原创 2017-12-05 13:52:13 · 2651 阅读 · 1 评论