一、获取数据采用数据仓库,将所有业务数据经汇总处理,构成数据仓库(DW)。数据仓库包括全部事实的记录、部分维度与数据的整理(数据集市-DM)
数据库与仓库的对比
1.数据库面向业务存储,仓库面向主题存储。
注:主题是较高层次上对分析对象数据的一个完整并且一致的描述
2.数据库针对应用(OLTP),仓库针对分析(OLAP)
3.数据库组织规范,仓库可能冗余,相对变化大,数据量大
二、获取数据采用监测与抓取
1.直接解析网页、接口、文件的信息
2.python通常采用urllib、urllib2、requests、scrapy抓取数据或网站,采用PhantomJS、beautifualSoup、Xpath(lxml)解析路径
三、获取数据--填写、埋点、日志
用户填写信息;App或网页埋点(特定流程的信息记录点);操作日志
四、获取数据---计算
通过已有数据计算生成衍生数据
Python数据分析之获取数据
于 2022-09-25 17:59:41 首次发布