PART 1 数据获取:
1.1数据获取手段-数据仓库(DW)
DW:全部事实的记录;
部分维度与数据的整理(数据集市-DM)
数据库->面向业务储存->OLTP(应用);
仓库->面向主题存储->OLAP(分析);
1.2数据获取手段-监测与抓取
1)直接解析网页,接口,文件的信息;
实操:
点开开发者工具,通过抓取工具,获取如下网页:
点击位置,就可获取相应的值-并为我所用;
(注意:像在网页上可以点击复制,一般都是可以抓取到并为我所用的数据)
文本数据可以直接用,若是图片(则需要修饰)
2)常用工具:
2)数据获取的手段-填写、埋点、日志
1.用户填写信息;
2.App活网页埋点(特定流程的信息记录点);
3,操作日志;
3)数据获取手段-计算:
通过已有数据计算生成衍生数据:
例如:统计报表某些项目:
4)数据学习网站:
数据竞赛网站(Kaggle&天池)
数据集网站(imageNet/Open Images)
各领域统计数据(统计局,政府机构,公司财务);
Kaggle网站主页: