数据分析
文章平均质量分 87
洪城浪子
洪城浪子风中客,诗酒醉颜曲临江
展开
-
Spark-Submit
Spark-SubmitSpark基于 Yarn 的提交任务,有两种模式,一种是 client,另一种是 cluster 。在 standalone 模式下也有 client 和 cluster 两种方式,方式大同小异,在 yarn 下将 ResourceManager 改为 Master , NodeManager 改为 Worker ,就变成了 standalone 模型。1. client模式提交任务的命令是:./spark-submit --master yarn --de原创 2021-07-31 17:50:29 · 255 阅读 · 0 评论 -
Spark RDD
Spark RDD文章目录Spark RDD一、RDD结构与操作1. RDD的创建2. RDD的结构3. RDD的分区Hash分区弊端:可能导致每个分区中数据量的不均匀,极端情况下会导致某些分区拥有RDD的全部数据。Range分区器要求RDD中的KEY类型必须是可以排序的4. RDD的转换常见的转换算子常见的Action算子5. RDD的ShuffleHashShuffleManager:SortShuffleManager:6. RDD的缓存7. RDD的计算Task划分依据8. RDD关于数据库连接原创 2021-07-31 17:47:44 · 714 阅读 · 1 评论 -
Spark 性能优化之Map-Join
Spark 性能优化之Map-Join文章目录Spark 性能优化之Map-Join1. Spark Stage的划分1.1 RDD的依赖关系1.1.1 窄依赖的实现1.1.2 宽依赖的实现1.2 Lineage(血统)与DAG中Stage的划分1.2.1 Lineage1.2.2 Stage的划分2. Reduce-Join和Map-Join2.1 Reduce-Join 的原理2.2 Map-Join 的原理3. Map-Join的手动实现1. Spark Stage的划分1.1 RDD的依赖关系原创 2021-01-25 17:21:50 · 5000 阅读 · 1 评论 -
Spark DataFrame入门学习笔记
Spark DataFrame入门学习笔记文章目录Spark DataFrame入门学习笔记1. 添加配置文件1.1、 配置文件存放目录1.2、 添加读取配置代码2. 初始化Spark3. 读入数据3.1、 本地文件导入2.2 从Hive数据库中读取2.3 从关系型数据库中读取(eg: Mysql)4. 数据倾斜后的散列操作4.1 添加随机数散列到不同节点5. 数据分批次处理1. 添加配置文件...原创 2019-10-12 14:44:40 · 752 阅读 · 1 评论 -
Scala中一些经典场景的解决方案
Scala中一些经典场景的解决方案文章目录Scala中一些经典场景的解决方案1、Spark DataFrmae执行udf函数时传入外部变量1、Spark DataFrmae执行udf函数时传入外部变量解决方案:通过scala中的闭包实现示例如下:将value在valueList中的行中的date进行格式化package antistopimport org.apache.spark....原创 2019-09-25 09:21:13 · 346 阅读 · 2 评论 -
Pandas一些常见场景的解决方案
Pandas一些常见场景的解决方案文章目录Pandas一些常见场景的解决方案1.过滤出DataFrame中某一列值在某个List中数据DataFrame groupby之后对数据进行聚合操作1.过滤出DataFrame中某一列值在某个List中数据场景如下:import pandas as pddata = {'one': pd.Series([1., 1., 3., 4.], inde......原创 2019-09-25 09:18:50 · 469 阅读 · 0 评论 -
免费数据集下载(很全面)
“聚数据”平台整理了网上开放的免费科研数据集,以下是分类列表以及下载地址,供高校和科研机构免费下载和使用。金融美国劳...转载 2019-09-20 14:51:28 · 3566 阅读 · 0 评论 -
Python Pandas 合并联接——Merge
Python Pandas 合并联接——Merge文章目录Python Pandas 合并联接——Merge1. Pandas 安装2. Pandas 的数据操作使用pandas前需要先引入pandas,若无特别说明,pd作为Pandas别名的通用写法2.1 作用2.2 参数说明2.3 单主键实例说明2.4 多主键实例说明2.5 未作为合并参考主键的列名出现重复2.6 提示合并详情Panda...原创 2019-07-30 15:10:51 · 4581 阅读 · 0 评论 -
Python Pandas 的使用——DataFrame
Python Pandas 的使用——DataFramePandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。1. Pandas 安装官方推荐的安装方式是通过Anaconda安装,但Anaconda太过庞大,若只是需要Pandas的功能,则可通过PyPi方式安装。pip install Pand...原创 2019-07-29 16:45:54 · 1449 阅读 · 0 评论 -
Python Pandas 的使用——Series
Python Pandas 的使用——SeriesPandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。1. Pandas 安装官方推荐的安装方式是通过Anaconda安装,但Anaconda太过庞大,若只是需要Pandas的功能,则可通过PyPi方式安装。pip install Pandas...原创 2019-07-29 11:46:27 · 9159 阅读 · 3 评论