2018年03月_振裕

原创 pyspark系列--自定义函数

自定义函数 1. 概览2. 自定义函数的一般流程3. 简单的自定义函数4. 自定义函数进阶1. 概览自定义函数的重点在于定义返回值类型的数据格式，其数据类型基本都是从from pyspark.sql.types import * 导入，常用的包括： - StructType()：结构体 - StructField()：结构体中的元素 - LongT...

2018-03-24 10:55:46 11479 2

原创 pyspark系列--集合操作

汇总函数1. 创建map2. 创建列表3. 元素存在判断4. 数据拉直5. posexplode6. json操作 6.1. get_json_object6.2. json_tuple6.3. from_json6.4. to_json7. 列表排序1. 创建map# Creates a new map column.from pyspark...

2018-03-23 22:42:45 4413

原创 pyspark系列--字符串函数

字符串函数1. 字符串拼接2. 字符串格式化3. 查找字符串位置4. 字符串截取5. 正则表达式6. 正则表达式替换7. 其他字符串函数1. 字符串拼接from pyspark.sql.functions import concat, concat_wsdf = spark.createDataFrame([('abcd','123')], ['s',...

2018-03-23 22:41:29 11060

原创 pyspark系列--日期函数

日期函数 1. 获取当前日期2. 获取当前日期和时间3. 日期格式转换4. 字符转日期5. 获取日期中的年月日6. 获取时分秒7. 获取日期对应的季度8. 日期加减9. 月份加减10. 日期差,月份差11. 计算下一个日子的日期12. 本月的最后一个日期1. 获取当前日期from pyspark.sql.functions import curr...

2018-03-23 22:40:34 15580 8

原创 pyspark系列--统计基础

统计基础 1. 简单统计2. 随机数3. 四舍五入4. 抽样5. 描述性统计6. 最大值最小值7. 均值方差8. 协方差与相关系数9. 交叉表(列联表)10. 频繁项目元素11. 其他数学函数 11.1. 数学函数12. 元素去重计数13. 聚合函数 grouping14. 聚合函数 grouping_id1. 简单统计在数据分析中，基本统计分...

2018-03-23 22:39:34 9899 1

原创 pyspark系列--datafrane进阶

datafrane进阶 1. 分组统计2. join 操作3. 缺失值处理4. 空值判断5. 缺失值处理6. 离群点7. 重复值8. 生成新列9. 类eval操作10. 行的最大最小值11. when操作12. lag,lead平移1. 分组统计分组统计应该是用的最多的方法了，比如分地区求平均值，最大最小值等。# 分组计算1color_df...

2018-03-23 22:33:55 5389 1

原创 pyspark系列--dataframe基础

dataframe基础 1. 连接本地spark2. 创建dataframe3. 查看字段类型4. 查看列名5. 查看行数6. 重命名列名7. 选择和切片筛选8. 删除一列9. 增加一列10. 转json11. 排序12. 缺失值1. 连接本地sparkimport pandas as pdfrom pyspark.sql import Spa...

2018-03-23 22:32:45 7883 1

原创 pyspark系列--pandas和pyspark对比

目录 1. pandas和pyspark对比 1.1. 工作方式1.2. 延迟机制1.3. 内存缓存1.4. DataFrame可变性1.5. 创建1.6. index索引1.7. 行结构1.8. 列结构1.9. 列名称1.10. 列添加1.11. 列修改1.12. 显示1.13. 排序1.14. 选择或切片1.15. 过滤1.16. 整合1.17. 统计...

2018-03-23 22:31:39 8398 3

原创 pyspark系列--读写dataframe

目录 1. 连接spark2. 创建dataframe 2.1. 从变量创建2.2. 从变量创建2.3. 读取json2.4. 读取csv2.5. 读取MySQL2.6. 从pandas.dataframe创建2.7. 从列式存储的parquet读取2.8. 从hive读取3. 保存数据 3.1. 写到csv3.2. 保存到parquet3.3. 写到hive3...

2018-03-23 22:30:30 20661 4

原创 pyspark系列--连接pyspark

目录 1. 连接spark 1.1. 简单连接spark1.2. 连接spark集群1.3. 集群python环境1.4. config参数2. 提交作业1. 连接spark1.1. 简单连接sparkfrom pyspark.sql import SparkSessionspark=SparkSession \ .builder...

2018-03-23 22:28:57 7114

原创 pyspark系列--pyspark2.x环境搭建

pyspark2.x环境搭建1. 前言2. linux子系统 2.1. 操作windows文件2.2. ssh安装3. java环境4. 安装hadoop5. 安装spark6. 安装python7. 测试 7.1. 命令行测试7.2. 提交python程序测试1. 前言因为文章主要是整理pyspark2.x的使用，不涉及到集群管理和集群参数调整，因...

2018-03-23 22:25:57 1906 1

原创供应链单级多周期库存补货模型

供应链单级多周期库存补货模型1. 经典EOQ模型及其基本假设1.1. 什么是EOQEOQ，即经济订购批量模型，是库存模型的理论基础，也是库存理论的基础模型，其核心是：在订货成本与库存成本之间寻找一个平衡，使得订货能够满足市场预估需求，而且成本最小化。可以用下面的一幅图来表示，订货成本逐渐下降，是因为随着订货量的增加，可以拿到数量价格折扣，同时单位运输成本也会下降，这是符合人们...

2018-03-11 22:01:59 11721 4

原创 pandas-sql不同时间段汇总小技巧

pandas-sql小技巧问题描述统计不同产品在不同时间段的销量，即，A产品统计1-5号，B产品统计3-7号的销量….分析对于这种简单问题，首先想到的是，用SQL去做，只要提取对应的时间区间就好了。 SQL语法如下：先取出指定日期区间的数据-- 先取出指定日期区间的数据select a.id as 产品ID, a.saledate as 销售日期, a.sa...

2018-03-09 16:35:40 1180

本专辑内容的阅读对象是有一定的高数和线性代数基础，但是缺少编程训练的人。1. 前言在这一讲中，我们来聊聊最小二乘及最小二乘方法求解方程参数问题。希望通过这一讲，能让大家了解通用参数求解方法的最小二乘是怎么工作的，如果大家有python基础，也希望大家能掌握一般方程的参数求解方法，并能依样画葫芦，解决学习工作中的数学模型参数问题。如果你没有python基础也不用担心，我们后面会有python及pyth

2018-03-09 15:19:52 878

原创 python3操作hive

1. 前言目前python3连接hive的方法主要是使用cloudera开发的impyla包，但是要安装impyla也不是那么容易的事情，因为impyla要使用系统底层模块，所以就要先安装对应的模块，而不仅仅是安装impyla就可以了。如果是想hdfs-server就好了，一个http就能搞定。在过大网友的无私奉献，以及Google和Baidu的帮助下，终于解决了python3连接hive...

2018-03-06 11:44:17 3899

振裕