数据分析大概有五个步骤。1.数据获取 2.探索分析与可视化 3.预处理理论 4.分析模型 5.模型评估 其中1、2步已经完成了狭义的数据分析。更细致的狭义数据分析步骤为:
1.提出问题——即我们所想要知道的指标(平均消费额、客户的年龄分布、营业额变化趋势等等)
2.导入数据——把原始数据源导入Jupyter Notebook中(网络爬虫、数据读取等)
3.数据清洗——数据清洗是指发现并纠正数据文件中可识别的错误(检查数据一致性,处理无效值和缺失值等)
4.构建模型(高级的模型构建会使用机器学习的算法)
5.数据可视化——matplotib库等
数据获取的手段一般有:数据仓库、监测与抓取、填写、日志、埋点、计算。
数据仓库:一个数据载体,用于记录业务与流程中的每一个细节。将所有业务数据经汇总处理,构成数据仓库-GW。部分维度与数据的整理即为数据集市-DM。数据库面对业务储存,仓库面对主题储存(主题:较高层次上对分析对象数据的一个完整并且一致的描述)。数据库针对应用(OLTP),仓库针对分析。数据库组织规范,仓库可能冗余,相对变化大,数据量大;
监测与抓取:抓取为直接解析网页、接口、文件信息,抓取的常用工具urllib、urllib2、requests、scrapy、phantomJS、beautifulSoup、Xpath(lxml);
埋点:APP或网页埋点(特定流程的信息记录点) 访客、停留时间、进出路;
操作日志:相对数据仓库的信息更加精简,以文件方式记录,需要进入仓库中统一分析。前端日志为需要传输到后端,后端日志即为服务器的日志,可以直接使用。
计算:通过已有数据计算生成衍生数据。
常用的数据学习网站: kaggle、TianChi天池、ImageNet、Open Images、统计局、政府机构、公司财报等。
今天就这些 8