spark
文章平均质量分 79
小菜鸡一号
这个作者很懒,什么都没留下…
展开
-
Spark数据处理与特征工程
sklearn在中小型数据集上,在工业界是在使用的xgboost、lightgbm在工业界的实用度非常的高工业界数据体量真的达到上亿或者十亿这样的规模用sklern处理起来是比较吃力的,可借助于大数据的工具,比如spark来解决现在可以用spark来做大数据上的数据处理,比如数据工程、监督学习、无监督学习模型的构建,只要计算资源够就OK。【大数据底层做分布式处理】注意:spark基于R...原创 2020-02-17 18:29:16 · 609 阅读 · 0 评论 -
Spark基础简介
Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark特点运行速度快:Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引擎,以支持循环数据流与内存计算,基于内存的执行速度可比Hadoop MapReduce快上百倍,基于磁盘的执行速度也能快十倍;容...原创 2020-01-09 15:26:54 · 291 阅读 · 0 评论 -
Spark_DataFrame
总览Spark SQL 是 Spark 处理结构化数据的一个模块, 与基础的 Spark RDD API 不同, Spark SQL 提供了查询结构化数据及计算结果等信息的接口.在内部, Spark SQL 使用这个额外的信息去执行额外的优化.有几种方式可以跟 Spark SQL 进行交互, 包括 SQL 和 Dataset API.当使用相同执行引擎进行计算时, 无论使用哪种 API / 语...原创 2020-01-05 14:36:08 · 122 阅读 · 0 评论 -
Spark_RDD的练习
1.在spark中用reduce计算10!用reduce()操作一个字符串,内容是前边练习中所哟以M开头的名字,list以逗哈分隔 。有一个很有用的操作,有时候我们需要重复使用某个RDD结果,但一遍遍重复计算显然是要开销的,所以我们可以通过一个叫cache()的操作把它杂事存储在内存中import numpy as npnumRDD = sc.parallelize(np.linesapc...原创 2020-01-05 12:03:03 · 367 阅读 · 0 评论