数据分析——python
概述
大数据的应用场景:社交,交通(滴滴),金融(蚂蚁金服),医疗(图像识别)。
分析流程:
数据获取:
获得网上公开数据集
科研数据共享网站:
UCI machine learning
crawdad
stanford large
数据算法竞赛
data castle
kaggle
政府数据网站
DATA.gov
NYC.open Data
上海市政府数据服务网
公司开放数据
Citi Bike
P2P 借贷网站-prosper,lendingclub
stack exchange
five thirty eight
优点:数据质量高,属性描述清楚,可参考使用案例
缺点:属性项局限,数据时效性一般,隐私保护的数据混淆
数据分析思维
问题定义:重要性,可行性,新颖性,挑战性
可行性:
领域知识:个人积累,询问专家,现实问题
数据支持:内部数据,合作数据,公开数据
问题分解 :1,、每个子问题有明确的输出
2、子问题之间尽量解除耦合
报告撰写
主要组成部分:问题引入
数据介绍(数据量,属性类型,基本统计量等)
分析流程(整体框架优化,善用示例)
讨论与总结(回到问题,给出解答)
数据报告清晰流程不用详细叙述
一幅炫酷的数据可视化效果图(热力图)
一张整体分析的流程框架图
一个具体的示例