
spark
文章平均质量分 65
振裕
被误解的大数据
展开
-
spark 学习笔记
spark 学习笔记《spakr快速大数据分析》 书中例子是以spark1.2为基础写的。第二章启动 ipython IPYTHON=1 ./bin/pyspark 使用ipython notebook IPYTHON_OPTS="notebook" ./bin/pyspark 在windows上启动 set IPYTHON=1 \n bin\pyspark将py程序提交到spark执行原创 2017-01-01 15:13:52 · 2532 阅读 · 0 评论 -
pyspark系列--自定义函数
自定义函数 1. 概览2. 自定义函数的一般流程3. 简单的自定义函数4. 自定义函数进阶1. 概览自定义函数的重点在于定义返回值类型的数据格式,其数据类型基本都是从from pyspark.sql.types import * 导入,常用的包括: - StructType():结构体 - StructField():结构体中的元素 - LongT...原创 2018-03-24 10:55:46 · 11579 阅读 · 2 评论 -
pyspark系列--集合操作
汇总函数1. 创建map2. 创建列表3. 元素存在判断4. 数据拉直5. posexplode6. json操作 6.1. get_json_object6.2. json_tuple6.3. from_json6.4. to_json7. 列表排序1. 创建map# Creates a new map column.from pyspark...原创 2018-03-23 22:42:45 · 4451 阅读 · 0 评论 -
pyspark系列--字符串函数
字符串函数1. 字符串拼接2. 字符串格式化3. 查找字符串位置4. 字符串截取5. 正则表达式6. 正则表达式替换7. 其他字符串函数1. 字符串拼接from pyspark.sql.functions import concat, concat_wsdf = spark.createDataFrame([('abcd','123')], ['s',...原创 2018-03-23 22:41:29 · 11174 阅读 · 0 评论 -
pyspark系列--日期函数
日期函数 1. 获取当前日期2. 获取当前日期和时间3. 日期格式转换4. 字符转日期5. 获取日期中的年月日6. 获取时分秒7. 获取日期对应的季度8. 日期加减9. 月份加减10. 日期差,月份差11. 计算下一个日子的日期12. 本月的最后一个日期1. 获取当前日期from pyspark.sql.functions import curr...原创 2018-03-23 22:40:34 · 15764 阅读 · 8 评论 -
pyspark系列--统计基础
统计基础 1. 简单统计2. 随机数3. 四舍五入4. 抽样5. 描述性统计6. 最大值最小值7. 均值方差8. 协方差与相关系数9. 交叉表(列联表)10. 频繁项目元素11. 其他数学函数 11.1. 数学函数12. 元素去重计数13. 聚合函数 grouping14. 聚合函数 grouping_id1. 简单统计在数据分析中,基本统计分...原创 2018-03-23 22:39:34 · 9986 阅读 · 1 评论 -
pyspark系列--datafrane进阶
datafrane进阶 1. 分组统计2. join 操作3. 缺失值处理4. 空值判断5. 缺失值处理6. 离群点7. 重复值8. 生成新列9. 类eval操作10. 行的最大最小值11. when操作12. lag,lead平移1. 分组统计分组统计应该是用的最多的方法了,比如分地区求平均值,最大最小值等。# 分组计算1color_df...原创 2018-03-23 22:33:55 · 5441 阅读 · 1 评论 -
pyspark系列--dataframe基础
dataframe基础 1. 连接本地spark2. 创建dataframe3. 查看字段类型4. 查看列名5. 查看行数6. 重命名列名7. 选择和切片筛选8. 删除一列9. 增加一列10. 转json11. 排序12. 缺失值1. 连接本地sparkimport pandas as pdfrom pyspark.sql import Spa...原创 2018-03-23 22:32:45 · 7971 阅读 · 1 评论 -
pyspark系列--pandas和pyspark对比
目录 1. pandas和pyspark对比 1.1. 工作方式1.2. 延迟机制1.3. 内存缓存1.4. DataFrame可变性1.5. 创建1.6. index索引1.7. 行结构1.8. 列结构1.9. 列名称1.10. 列添加1.11. 列修改1.12. 显示1.13. 排序1.14. 选择或切片1.15. 过滤1.16. 整合1.17. 统计...原创 2018-03-23 22:31:39 · 8621 阅读 · 3 评论 -
pyspark系列--读写dataframe
目录 1. 连接spark2. 创建dataframe 2.1. 从变量创建2.2. 从变量创建2.3. 读取json2.4. 读取csv2.5. 读取MySQL2.6. 从pandas.dataframe创建2.7. 从列式存储的parquet读取2.8. 从hive读取3. 保存数据 3.1. 写到csv3.2. 保存到parquet3.3. 写到hive3...原创 2018-03-23 22:30:30 · 20775 阅读 · 4 评论 -
pyspark系列--连接pyspark
目录 1. 连接spark 1.1. 简单连接spark1.2. 连接spark集群1.3. 集群python环境1.4. config参数2. 提交作业1. 连接spark1.1. 简单连接sparkfrom pyspark.sql import SparkSessionspark=SparkSession \ .builder...原创 2018-03-23 22:28:57 · 7256 阅读 · 0 评论 -
pyspark系列--pyspark2.x环境搭建
pyspark2.x环境搭建1. 前言2. linux子系统 2.1. 操作windows文件2.2. ssh安装3. java环境4. 安装hadoop5. 安装spark6. 安装python7. 测试 7.1. 命令行测试7.2. 提交python程序测试1. 前言因为文章主要是整理pyspark2.x的使用,不涉及到集群管理和集群参数调整,因...原创 2018-03-23 22:25:57 · 1966 阅读 · 1 评论 -
spark-python版本依赖与三方模块方案
spark-python版本依赖与三方模块方案1. 背景公司有统一的spark大数据集群,但spark用的python版本是python2.7,项目组这边都是用python3.5,甚至有些项目用的是python3.6,对某些第三方包,有些项目用到pandas0.18,有些是pandas0.23等。相信这个问题用python的同学都遇到过,就是python的版本管理和第三包版本管理问题,...原创 2018-08-31 14:51:41 · 7043 阅读 · 2 评论