一·、获取数据途径·
二、数据收集特征
2.1日志收集系统特征·:高可用性,高可靠性,可扩展性
2.2网络数据收集
2.3数据库收集
关系型数据库(mysql,oracle)
非关系型数据库(redis)
2.4公开出版刊物
2.5开发数据平台
2.6市场调查
三、数据质量检验
3.1原因
3.2导致现象
3.3 脏数据:缺失値 昇常値 不一致的値 重夏値
缺失値
原因:
结果 :
昇常値:1.简单统计量分析 2. 3P原则 3.箱型图分析
原因
结果:
不一致的値
原因
重夏値
形式