目录
1.数据获取手段
数据获取手段有:数据仓库,监测与抓取,填写、日志、埋点,计算等。
(1)数据仓库
如果一个网站是卖书的,建立的数据库存储书的信息,用户的信息等,当网站扩展到一定规模时,遇到一个很重要的方向问题,该卖哪些书,该着重面向什么人群推荐什么书,这时仅仅靠数据库是不够的,于是需要把每一次用户进行数据交互时,数据库的变动的信息都记录下来,例如用户在几时几分买了什么书,浏览了什么网页,如实记录并长期保留。这就需要数据仓库了
-
将所有业务数据经汇总处理,构成数据仓库(DW)
-
全部事件的记录;
-
部分维度与数据的整理(数据集市-DM);
-
-
数据库与数据仓库
-
数据库面向业务存储,仓库面向主题存储(主题:较高层次上对分析对象数据的一个完整并且一直的描述);
面向业务需要保证高并发,快速读写,数据结构精简等,主要为用户提供优质的用户体验;
数据仓库面向主题存储;
-
数据库针对应用(OLTP-online transaction processing),数据仓库针对分析(OLAP-online analysis processing);
-
数据库组织规范,仓库可能冗余,相对变化大,数据量大;
-
(2)监测与抓取
监测是通过检测设备和算法直接获取数据,如传感器网络;
抓取是爬取网站上的内容;
(3)填写、埋点、日志
-
填写指的是用户填写的信息,如用户注册时的信息;
-
埋点:在APP或者网页应用中,针对特定的流程,收集一定的信息用来根据APP或者网页用户使用的情况,以便用来进一步优化产品,运营支持;
-
操作日志,日志是以文件形式存在的;
(4)计算
有些数据不能直接计算,需要通过已有数据计算生成衍生数据,例如统计报表某些项目。
2.好用的数据学习网站
(1)数据竞赛网站(Kaggle&天池);
(2)数据集网站(ImageNet/open Images(google出的));
(3)各领域统计数据(统计局、政府机构、公司财报等);