数据分析流程

一.确定分析目的和内容:
        1.引导数据收集方向
        2.指导数据分析目标
        
    了解业务,了解需求
    
二.收集数据:
        1.读取公司内部的数据(公司业务积累数据,日志,)
        2.数据抓取(抓取网络上的相关数据,补充数据源)
        3.购买其它平台的业务数据
        
    数据库:mysql(结构化),hive(仓库) ,oracle
    hbase,mongodb,redis,memcachedb
    Bigtable:一个结构化数据的分布式存储系统  google
    DynamoDB是亚马逊的key-value模式的存储平台    
    nosql数据库介绍:http://www.pc6.com/infoview/Article_67065.html
    
    数据抓取:python,jsoup,httpclient,htmlunit,fiddler4(分析工具),nutch
    使用图文教程:http://blog.csdn.net/chaoyu168/article/details/51065644
    
    数据抽取:flume,Kafka
    Flume:Flume 是管道流方式,提供了很多的默认实现,让用户通过参数部署,及扩展API.
    Flume安装介绍:http://blog.csdn.net/u012135300/article/details/51320343
    Kafka:Kafka是一个可持久化的分布式的消息队列。
    Kafka安装介绍:http://www.cnblogs.com/darkprince/p/5114425.html
    
三.处理数据:
        1.清洗:处理垃圾数据和错误,清洗出业务需求数据
        2.转化:整理出有规则的数据格式(可以是文本,json,表格等)
        3.提取:编写清洗模板,便于拓展和调整
        4.计算:根据预定的字段,计算出相应的值
        
        ETL: kettle
    kettle安装使用介绍:http://www.cnblogs.com/zhangchenliang/p/4179775.html
    ETL数据清洗工具:http://blog.csdn.net/xiaoshunzi111/article/details/51881740  (没多大用)
    
四.分析数据:
        1.加工、整理和分析、使其转化为信息
        
        数据建模:关系模型,多维模型   http://www.2cto.com/database/201401/272744.html
        数据库建模工具:http://www.cnblogs.com/liangxiaofeng/p/5798590.html
        mahout,spark mllib,
        18算法介绍:https://my.oschina.net/u/2510243/blog/808270

五.展现数据:
        1.各种图形结果和表格展示
        
        数据可视化工具:http://www.360doc.com/content/16/0606/00/888124_565383093.shtml
        
六.撰写报告:
        1.对数据分析过程的总结和呈现,把分析起因,过程,结果及建议呈现出来,以供决策
        

转载于:https://my.oschina.net/u/2510243/blog/808427

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值