DataAnalysis-Maggie-Lecture3

本期topic:
1Data Preprocessing2Data Preparation 3Time Series

Prepossessing

常见如下处理:parsing解析,verification,sanitization清洁,correction,deduplication去重,consolidation。

举例CSV格式处理
1text去除双引号
2长数字精度下降和统一精度。
3分隔符;会随着电脑系统设置变化,可能无法正确解析
4文件拓展名不匹配:.xls .xlsx
5使用python解析,不用用自己定的规则
6UTF-8编码错误
7其他问题:导入数据遗失,数据编码不统一

Preparation

误差分类
随机或确定的误差:测量和传输中产生的误差,个体测量误差,数据传输丢包
Inliers和outliers:
个体数据值的误差,inlier在正态分布内部,outlier在外部。由测量或者传输导致问题。
去除outliers方法:1设置特征边界2研究标准差
去除inliers方法:flitering过滤
 

误差处理
对于outliers无效值:
1用均值中值最大最下值去替换 2用最临近正确值替换3按时间序列线性插值
4去除本特征向量5去除本特征
实行以上措施需要基于样本中的无效值比例

filering滤波
可以消除inlier,outlier,noise
对称窗口:k位数据值,等于[k-q/2,k+q/2]区间内的均值。
因为需要用到之后的数据,所以此过滤只能用于离线数据。
非对称窗口:k位数据值,等于[k-q,k]区间内的均值。
因为只需要之前的数据,所以此过滤可以用在在线数据和离线数据。
滑动平均

DataTransformation数据转换
数据的scale不同,比如年龄区间是0-120,收入区间是0-100000,如果不做加工,数据weight差异很大,
标准化针对的是把整列(特征)作为处理对象,而正则化把行(样本)作为处理对象
standardization标准化:x1 = x - mean/deviation
它可以将一列数据的平均值变为0,方差变为1 。但是不改变原来的数据结构分布,只是将数值进行了缩放。
normalization归一化:x1 =(x - minimal)/(maximal-minimal)
正则化针对的是每行,或者说每个样本的不同特征。一般计算样本之间距离时使用其做归一化处理,比如聚类,K近邻、文本分类。
Linearize线性化:把非线性的数据线性化,比如

Time Series Data

时间序列数据,时序数据,间隔相等的测量数据。这是一个非常常见的数据类型。
Data 没有x,取而代之的是index,旧数据可以预测未来数据,所以诞生新概念Time series regression。Yt = Yt-1 + A.

四种TSD的成分Components:
1Trend2Cyclical(but irregular)3Seasonal 4Random

成分的组合
Additive Model:𝑌𝑡𝑡=𝑇𝑇𝑡𝑡+𝐶𝐶𝑡𝑡+𝑆𝑆𝑡𝑡+𝑅𝑅(𝑡𝑡)
Multiplicative Model:𝑌𝑌𝑡𝑡=𝑇𝑇𝑡𝑡 ∗𝐶𝐶𝑡𝑡 ∗𝑆𝑆𝑡𝑡 ∗𝑅𝑅(𝑡𝑡)

对TSD建模modeling
白噪音:无法建模


AutoRegressiveModel (ARmodel)模型基本思想:base on past
 下一个观测值约等于前n个观测值的某种线性加权和。是用y预测 y(自己);所以叫做自回归
当一个时间序列中,它当前的观测值可以通过历史观测值获得是,那么就是一个AR。

Moving-average(MA)模型基本思想:base on error
观测值序列是由一个以白噪声序列为输入的系统产生的。
Moving average(MA) Process 是一个序列,其中当前值是由过去误差的线性组合组成的。我们认为误差是服从正态分布并且相互独立的

AutoRegressive Moving Average Model (ARMA): AR + MA

Autoregressive Integrated Moving Average Model (ARIMA):
 

AutoCorrelationfunction (ACF):描述现在值和过去值的相关程度

Partial autocorrection Function (PACF):描述现在值和过去p个值的相关程度

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值