数据处理
文章平均质量分 94
skyHdd
deep work,simple life
展开
-
数据分析 | 异常数据识别小结
这里写目录标题1. 定义与使用场景定义使用场景数据异常的原因2. 单变量数据异常识别2.1 简单统计量分析2.2 三倍标准差2.3 box-cox转化+3倍标准差基本介绍基本公式Box-Cox优势python 实现2.4 箱线图3. 时间序列数据异常识别3.1 设置恒定阈值3.2 设置动态阈值-移动平均法3.3 STL数据拆解法4. 多变量异常数据识别4.1 孤立森林模型基本介绍算法逻辑介绍1. 定义与使用场景定义异常检测,即发现一组数据点中和大多数数据不同的数据点。如果你要去网上搜索英文文献,可以用原创 2021-04-12 15:28:56 · 4178 阅读 · 0 评论 -
Pandas DataFrame 分组求和、分组乘积
import numpy as npimport pandas as pdpd.set_option('display.max_columns', 10)# 删除空数据def DropNan(data_qd): for i in range(len(data_qd)): if np.isnan(data_qd['test_uniq_cnt'][i]) or \ np.isnan(data_qd['fail_uniq_cnt'][i]):原创 2020-05-25 20:42:48 · 4881 阅读 · 0 评论 -
pyspark DataFrame 数据预处理
文章目录一、在pyspark中运行代码二、pyspark 与 DataFrame三、pyspark DataFrame的创建及保存3.1、创建SparkSession对象:3.2、创建DataFrame3.3、DataFrame的保存四、pyspark DataFrame的常见操作五、pandas.DataFrame、spark.DataFrame互相转换pyspark = spark + python一、在pyspark中运行代码pyspark提供了python交互式执行环境;pyspark可以实原创 2020-05-18 22:36:12 · 1711 阅读 · 1 评论 -
python pandas.merge()实现两个dataframe连接
merge: 合并数据集, 通过left, right确定连接字段,默认是两个数据集相同的字段参数 说明left 参与合并的左侧DataFrameright 参与合并的右侧DataFramehow 连接方式:‘inner’(默认,内连接);还有,‘outer’(全连接)、‘left’(左连接)、‘right’(右连接)on 用于连接的列名,必须同时存在于左右两个DataFrame对象中...原创 2020-02-09 12:18:15 · 8464 阅读 · 0 评论 -
python 识别不标准的project name
一、业务目标说明project 含有两个字段,分别为 project id和project nameproject id和project name理论上是一一对应关系,需要找出project id相同,project name不同的数据project name不标准主要体现在 大小写不一致,需要区分大小写;含有非法空格二、python实现import pandas as pdim...原创 2020-02-04 11:28:59 · 507 阅读 · 0 评论 -
python 利用df.drop_duplicates()和df.duplicated()实现查找某字段取值不标准的数据
df.drop_duplicates()DataFrame.drop_duplicates(self, subset=None, keep=‘first’, inplace=False)参数: subset : column label or sequence of labels, optionalOnly consider certain columns for identifyi...原创 2020-01-12 20:26:25 · 6900 阅读 · 1 评论 -
python利用np.where()实现不同条件下的数据处理或者计算
numpy.where (condition[, x, y])用法np.where(condition, x, y)满足条件(condition),输出x,不满足输出y。np.where([[True,False], [True,True]], # 官网上的例子 [[1,2], [3,4]], [[9,8], [7,6]])...原创 2020-01-08 22:32:26 · 2361 阅读 · 1 评论 -
python dataframe时间类型数据预处理以及周期统计
时间类型数据预处理:0、时间格式转换dateframe 日期数据,字符型转换成日期格式:pd.to_datetime(dateframe_timedate,format='%Y/%m/%d %H:%M:%S')常见的报错检查点:格式不匹配,检查原始数据中的日期格式,‘2019/01/01 00:00:00’只能转换成format=’%Y/%m/%d %H:%M:%S’。同理,‘2...原创 2020-01-08 22:10:37 · 6164 阅读 · 2 评论 -
python dataframe计算两个日期之间天数 两种思路(推荐思路2)
思路1:1、字符串转日期格式,对于dataframe格式的日期数据datadf[‘A’]可以采用 pd.to_dataframe(datadf[‘A’])2、对于日期格式的两个数据date1、date2,可以直接采用(date2 - date1).days 得到两个日期之间的天数3、对于dateframe中的日期series,借助 lambda实现.栗子:import numpy a...原创 2020-01-06 23:29:57 · 11606 阅读 · 2 评论 -
R语言︱处理缺失数据&&异常值检验、离群点分析、异常值处理
在数据挖掘的过程中,数据预处理占到了整个过程的60%脏数据:指一般不符合要求,以及不能直接进行相应分析的数据脏数据包括:缺失值、异常值、不一致的值、重复数据及含有特殊符号(如#、¥、*)的数据数据清洗:删除原始数据集中的无关数据、重复数据、平滑噪声数据、处理缺失值、异常值等缺失值处理:删除记录、数据插补和不处理主要用到VIM和mice包install.packages(c(“VIM”,...转载 2019-11-04 00:04:31 · 5061 阅读 · 0 评论