文章目录
数据分析过程
定位数据
业务系统,官方网站(统计局,央行),数据服务商,自己
获取数据
数据库API,下载,拷贝,爬虫,数据服务商提供的服务
清洗数据
存储数据
保存是为了再次使用,可以用数据库也可以用文件,这里涉及数据模型的设计,考虑数据的更新
加工数据
分类汇总,指标计算
展现数据
变成图片
使用数据
发监管函
大数据分析特点
- 从样本分析到总体分析
- 从因果分析到关联分析
- 从精确分析到近似分析
数据->信息->知识->智慧
4v
- volume
- variety
- volicity
- value
NoSQL四种
- KV
redis - 文档
mongo - 列存储
cassandra - 图数据库
neo4j
大数据处理
采集
挑战:并发量大
方法
- 系统日志(flume kafka)
- 网络数据(网络爬虫)
- 其他方法(使用其他系统特定接口)
预处理
将多个数据库的数据导入一个数据库并在导入式做预处理
数据清洗
处理脏数据
遗漏数据
根据重要性采用不同方法
- 删除
- 极端值填充
-9999 - 根据统计值填充
- 随机差值
- 模型填充
- 哑变量
若某个变量存在几十个不同的值,可根据每个值得频数,将频数较小的值归为一类other,降低维度
离群点处理
是不是业务运营动作产生
- 简单统计分析
- 3
- 绝对离差
- 基于去其他对象距离
- 密度
- 基于聚类
处理方法 - 删除
- 对数变换
- 平均值或中位数替代
- 采用对离群点鲁棒性高的算法
噪声的处理
分箱,然后使用箱内的平均值等代替
不一致数据处理
编码规则
数据集成
需解决的问题
- 模式集成问题
例如两个系统中customer_id的匹配 - 冗余问题
- 数据的冲突和处理
单位上的差异
数据转换
规范化
消除数值型属性因大小不一而造成偏差,例如KNN
- 最大-最小
- Z-Score
- Log
- 移动小数点将数据映射到[-1,1]
离散化
原因
- 模型需要,减少运算量
- 便于理解
- 克服数据中缺陷
方法 - 等频法
100个样本放入5箱,每箱20 - 等宽法
取值范围在[0,100)的样本,放入5箱,分别是[0,20),[20,40)… - 聚类法
- 有监督的离散化方法
稀疏化
哑变量
合计处理
例如每日交易量->每月交易量
数据泛化
街道->城市,年龄->中年,老年
属性构造
从原始值构造新的属性
数据消减
减少数据量,降低数据维度,删减冗余信息.从而提高效率,甚至实现实时查询
常见策略
- 数据立方合计
- 数据压缩
使用特定编码集 - 数据块
- 离散化和概念层次
使用更高层概念 - 维度消减
检测弱相关数据项
分析
分析相关性(定量),预测未来
分类和算法
- 聚类
K-means KNN - 分类
梯度下降树GBDT,朴素贝叶斯NB,DNN,CNN,LSTM - 回归
- 时间序列
- 网页排序
十大经典算法
支持度 num(A∩B)/num(T)
置信度 P(A∩B)/P(A)
Apriori算法
ID3
K-means
挖掘/呈现
与传统方式差别是一般没有特定主题
呈现:表格,图形,动图&3D
python处理大数据
遇到的问题
- 内存限制
- 计算
- 编译形语言
解决问题
h5py
h5py.File(’’,’’) 此时数据是写入磁盘,不占用内存
hdfview 查看
group
SoftLink 软连接
压缩