数据分析
数据分析是指运用适当的统计分析方法或者工具对收集来的大量数据进行整理和归纳,将它们加以汇总和理解并消化,提取有价值信息,从中发现因果关系,内部联系和业务规律,以求最大化地开发数据地功能,形成有效结论地过程,发挥数据地作用。
步骤思路
- 明确分析目的和思想/提出假设
- 数据收集
爬虫的工作原理
基本流程:
1、发送请求(urlib,requests)
2、获取页面内容(html)
3、解析页面(bs4,xpath,正则表达式,jsonpath,pyquery,son)
4、异步动态加载/验证码处理(selenium,phantomJs)
5、抽取并存储内容(json,csv/tsv,数据库) - 数据处理/整理
- 数据分析/验证假设
Python数据分析:Numpy/Pandas,SPSS/SAS,RDBMS/MySQL/Hive
大数据数据分析:HDFS/Hive,Spark等 - 数据展示/可视化图表
- 报告撰写