![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据处理
文章平均质量分 80
大数据处理相关文章
唐犁
北邮学通信的,YouTube技术视频@li-tang
展开
-
PySpark大数据分析(1):Spark的安装与文件读取
Spark是大数据分析引擎,擅长批处理,支持部分机器学习算法的并行化。Spark支持Java,scala,python,以及R语言,其中使用python进行编程的pyspark非常适合算法工程师和数据科学家对数据进行分析与建模。Python自身拥有最为完善的算法库,编写容易,算法相关岗位普及率高。相比于Java和scala,pyspark可以节省大量编程时间原创 2020-06-12 21:16:39 · 2297 阅读 · 1 评论 -
PySpark大数据分析(2):RDD操作
在Spark中,数据以弹性分布式数据集(Resilient Distributed Dataset)的形式存在。对RDD的操作主要分为转化操作和行动操作两种。Spark可以将RDD中的数据分发到集群上,以此并行化执行相关的操作。当我们读取一个外部数据的时候,它在Spark中就是以RDD的形式存在的。比如我们读取一个此时的iris就是一个RDD。接下来分别对这个RDD进行转化操作以及求值操作。原创 2020-09-04 10:47:57 · 1385 阅读 · 1 评论 -
PySpark大数据分析(3):使用Python操作RDD
使用Python编写Spark代码在Python中使用Spark,首先需要导入PySpark,然后创建一个SparkConf对象配置你的应用,再基于这个SparkConf创建一个SparkContext。以创建一个名为’MyApp’的本地应用为例:from pyspark import SparkConf, SparkContextconf = SparkConf().setMaster('local').setAppName('MyApp')sc = SparkContext(conf=con原创 2020-09-04 11:21:59 · 1165 阅读 · 2 评论 -
PySpark大数据分析(4):键值对操作
Spark的RDD支持键值对形式的数据,这种类型的RDD被称为Pair RDD,并且拥有一些基于键值对的专属操作。Pair RDD往往用于聚合操作,比如将数据中的用户ID提取出来作为键值,然后对每个用户的行为进行聚合。这类操作在Spark中十分常用。创建Pair RDD对于一个普通的RDD来说,使用map()函数就可以将它转变为Pair RDD。Pair RDD的转化操作Pair RDD的行动操作数据分区...原创 2021-05-25 18:50:12 · 432 阅读 · 2 评论 -
PySpark大数据分析(5):数据分区
在Spark这类分布式程序中,通信的开销非常大。控制数据分区的意义就在于,通过合理的数据分布减少网络传输从而提升性能。对数据进行分区主要用于优化基于键的操作。上面的代码可以进行曝光过滤,但是考虑到latest_impressions需要实时更新,这个过滤操作可能会被经常调用,而上面的代码每次都会执行join()操作,导致代码效率很低。实际工作中,存储全量用户的user_recall表要比一直更新的latest_impressions表大很多,并且没有那么频繁的更新。原创 2021-05-25 20:13:15 · 1174 阅读 · 1 评论 -
PySpark大数据分析(6):数据读写
PySpark可以直接将一个文本文件读取进来,变成一个RDD,将文件的每一行作为RDD中的一个元素。使用saveAsTextFile()可以将数据保存为文本文件。PySpark会将传入路径作为文件夹,从多个节点在其下并行输出多个文件,因此数据的每一个部分输出到哪个文件中往往是不受控的。原创 2021-05-25 22:06:35 · 752 阅读 · 1 评论 -
PySpark大数据分析(7):Spark SQL
UDF可以轻松实现复杂操作以及它们的反复使用。用户可以在dataframe的select(),withColumn(),以及SQL中的udf()调用Python中注册的自定义函数,简单来说就是对于复杂一些的处理,用户不需要在SQL中进行直接编程来实现,而是使用Python实现该功能,并作为一个UDF在SQL中调用。PySpark同时支持Spark SQL以及Hive的UDF。需要注意的是,由于对于Spark而言,UDF相当于一个黑盒,Spark内部对dataframe的优化无法应用在UDF上。因此UDF本身原创 2021-05-25 22:29:28 · 333 阅读 · 1 评论 -
PySpark大数据分析(8):PySpark机器学习库
{}{}{}{}原创 2021-05-26 23:11:41 · 406 阅读 · 1 评论 -
TPC-DS标准规范(1)
TPC-DS是一套决策支持系统测试基准,主要针对零售行业。提供99个SQL查询(SQL99或2003),分析数据量大,测试数据与实际商业数据高度相似,同时具有各种业务模型(分析报告型,数据挖掘型等等)。国内目前相关的翻译文章较少。本文尝试对官网的TPC BENCHMARK DS Standard Specification(下称“原文”)进行翻译。翻译主要参照的是2017年发布的2.6.0版本。现在可以在 http://www.tpc.org/tpc_documents_current_versions/.翻译 2017-05-24 18:52:49 · 1219 阅读 · 2 评论 -
TPC-DS标准规范(2)
TPC-DS是一套决策支持系统测试基准,主要针对零售行业。提供99个SQL查询(SQL99或2003),分析数据量大,测试数据与实际商业数据高度相似,同时具有各种业务模型(分析报告型,数据挖掘型等等)。国内目前相关的翻译文章较少。本文尝试对官网的TPC BENCHMARK DS Standard Specification(下称“原文”)进行翻译。翻译主要参照的是2017年发布的2.6.0版本。现在可以在 http://www.tpc.org/tpc_documents_current_versions/c翻译 2017-06-01 22:31:19 · 3653 阅读 · 1 评论 -
TPC-DS标准规范(3)
TPC-DS是一套决策支持系统测试基准,主要针对零售行业。提供99个SQL查询(SQL99或2003),分析数据量大,测试数据与实际商业数据高度相似,同时具有各种业务模型(分析报告型,数据挖掘型等等)。国内目前相关的翻译文章较少。本文尝试对官网的TPC BENCHMARK DS Standard Specification(下称“原文”)进行翻译。翻译主要参照的是2017年发布的2.6.0版本。现在可以在 http://www.tpc.org/tpc_documents_current_versions/c翻译 2017-07-05 13:13:01 · 68286 阅读 · 8 评论 -
TPC-DS标准规范(4)
TPC-DS是一套决策支持系统测试基准,主要针对零售行业。提供99个SQL查询(SQL99或2003),分析数据量大,测试数据与实际商业数据高度相似,同时具有各种业务模型(分析报告型,数据挖掘型等等)。国内目前相关的翻译文章较少。本文尝试对官网的TPC BENCHMARK DS Standard Specification(下称“原文”)进行翻译。翻译主要参照的是2017年发布的2.6.0版本。现...翻译 2017-08-10 11:01:59 · 13663 阅读 · 1 评论 -
TPC-DS标准规范(5)
TPC-DS是一套决策支持系统测试基准,主要针对零售行业。提供99个SQL查询(SQL99或2003),分析数据量大,测试数据与实际商业数据高度相似,同时具有各种业务模型(分析报告型,数据挖掘型等等)。国内目前相关的翻译文章较少。本文尝试对官网的TPC BENCHMARK DS Standard Specification(下称“原文”)进行翻译。翻译主要参照的是2017年发布的2.6.0版本。现在可以在 http://www.tpc.org/tpc_documents_current_versions/c翻译 2017-08-23 09:46:08 · 1519 阅读 · 1 评论 -
TPC-DS标准规范(6)
TPC-DS是一套决策支持系统测试基准,主要针对零售行业。提供99个SQL查询(SQL99或2003),分析数据量大,测试数据与实际商业数据高度相似,同时具有各种业务模型(分析报告型,数据挖掘型等等)。国内目前相关的翻译文章较少。本文尝试对官网的TPC BENCHMARK DS Standard Specification(下称“原文”)进行翻译。翻译主要参照的是2017年发布的2.6.0版本。现在可以在 http://www.tpc.org/tpc_documents_current_versions/c翻译 2017-10-18 14:44:43 · 4843 阅读 · 1 评论 -
TPC-DS标准规范(7)
TPC-DS是一套决策支持系统测试基准,主要针对零售行业。提供99个SQL查询(SQL99或2003),分析数据量大,测试数据与实际商业数据高度相似,同时具有各种业务模型(分析报告型,数据挖掘型等等)。国内目前相关的翻译文章较少。本文尝试对官网的TPC BENCHMARK DS Standard Specification(下称“原文”)进行翻译。翻译主要参照的是2017年发布的2.6.0版本。现...翻译 2017-10-19 14:55:51 · 6811 阅读 · 1 评论