数据预处理
达到:符合用于模型加工计算的数据类型
提高效果:1)提高数据质量 2)尝试新的算法
why?
- 现实世界数据处理的瑕疵
现实数据是我们再特定情况下所能拿到的一部分数据——思考:能够真实的反映现实情况吗?
- 数据缺失
- 数据冗余
总结出来的规则模型和经验模型——有其自身的道理和组织性。
数据抽取
数据抽取是从数据源中抽取数据的过程。
解决方案:
ETL:是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)
目标:数据优化
过程:
- 数据来源
- 抽取方式
- 抽取效率
- 抽取工具
数据集市:可以理解为是一种"小型数据仓库",它只包含单个主题,且关注范围也非全局,数据集市也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。数据是从企业范围的数据库、数据仓库中抽取出来的。重点在于他迎合了专业用户群体的特殊需求,其面向部门级业务或某一个特定的主题、良好解决了灵活性和性能之间的矛盾。
操作性数据 vs 分析性数据
细致(订单,一般会更新) 过去已发生的(一般不会更新)
数据库(DB) 数据仓库
数据获取后如何储存:
关系型数据库?NoSQL?还是txt文档?
数据预处理方法
-
数据清理
遗漏值
噪声数据(测量数据的随机错误或偏差)
使用数据平滑技术去处理一些随机技术:
(1)分箱(等深、区间值)—>平滑(平均值平滑、边界值平滑、均值平滑:一把使用基本统计量,看现实中什么更合理)
(2)回归 -
不一致数据
-
数据集成与变换
数据集成:将多个不同的数据源的数据进行结合,放在一致的数据储存中
数据变换(转换为(0,1)之间的可用数据)
数据泛化(任务相关的数据集从较低的概念层向较高的概念层抽象) -
规约化(可以减少数据数量,减少计算开销)
数据压缩
数据归约(如聚类、直方图等)
离散化和概念分层
标签提取
用户画像——用户信息进行标签(对属性进行取值)化
如何去确定标签?
—— TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)——词在本文的重要性 ×代表性——词频×逆文档概率
源自自然语言处理的统计算法(它的关键词是什么?)
为什么是乘——体现算法设计的思想:当存在好几块的时候我们该如何汇总(加(n类独立的方法)?乘(n步的方法)?)