数据是对事物的基本描述。
- 数据类型
- 逻辑类型
- 存储结构
- 逻辑
- 物理
理解:大数据可以用来挖掘形成常识性知识的数据集合。
大数据基于公共服务,能够获得获取数据的权利。
在实际数据分析工作分析中,数据类型转换和数据自身的错误是面临的主要挑战
数据源
数据挖掘:interesting, useful hidden,from massive
ETL:数据提取,转换,装载
分类:尽量做到线性,低复杂度
训练集与测试集分开,分类器在训练样本上的学习误差并不是越低越好,会有过学习现象
混淆矩阵 TP FP TN FN Random Guess;不同应用场景有不同配权
AUC 表示ROC分析中的曲线优化率,趋于1为好
提升度 优化后的与优化前比。