数据分析

数据分析——python

概述

大数据的应用场景:社交,交通(滴滴),金融(蚂蚁金服),医疗(图像识别)。

分析流程:

问题提出
数据获取
清理与存储
分析与建模
报告

数据获取:
获得网上公开数据集
科研数据共享网站:
UCI machine learning
crawdad
stanford large
数据算法竞赛
data castle
kaggle
政府数据网站
DATA.gov
NYC.open Data
上海市政府数据服务网
公司开放数据
Citi Bike
P2P 借贷网站-prosper,lendingclub
stack exchange
five thirty eight
优点:数据质量高,属性描述清楚,可参考使用案例
缺点:属性项局限,数据时效性一般,隐私保护的数据混淆

数据分析思维

问题定义:重要性,可行性,新颖性,挑战性

可行性:
领域知识:个人积累,询问专家,现实问题
数据支持:内部数据,合作数据,公开数据

问题分解 :1,、每个子问题有明确的输出
2、子问题之间尽量解除耦合

报告撰写

主要组成部分:问题引入
数据介绍(数据量,属性类型,基本统计量等)
分析流程(整体框架优化,善用示例)
讨论与总结(回到问题,给出解答)
数据报告清晰流程不用详细叙述
一幅炫酷的数据可视化效果图(热力图)
一张整体分析的流程框架图
一个具体的示例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值