Coursera, Big Data 1, Introduction (week 1/2)

Status: week 2 done.

 

Week 1, 主要讲了大数据的的来源 - 机器产生的数据,人产生的数据(比如社交软件上的update, 一般是unstructed data), 组织产生的数据(一般是structured data) 

怎么把unstructured data 转化成 structured data?

  利用 Hadoop, Storm, Spark and NoSQL. Hadoop 能解决data量大的问题,因为它是支持分布式计算的。 Storm 和 Spark 能分析像社交应用这种短时间内产生大量实时数据的情况, 还能和任何类型的DB集成.

传统的数据仓库是下面这样的。structed data 存在data warehouse里.

  

 

而现在的大数据时代,很多企业都是采用hybrid方案 - 把少量数据存在structured DB里,而更多的数据放在云上的 NoSQL DB里.

 

下面是两种NoSQL类型的数据库

  

 

Neo4j - graph db

Cassandra - key value db

 

Week 2

 

big data 的特征可以用几个V来概括.

Volume - Scale of data

Velocity (=Speed) - Analysis of streaming data (数据产生快,存储快,处理快)

Variety - Different forms of data

Veracity (=Quality) - Uncertainty of data

Valence - Connectness of big data in the forms of graphs

  

 

  

 

Getting value out of big data: 分析 big data, 形成 insight, 进而转化为 Action.  

一个data stientist 应该具有相关的 technical skills, bussiness skills 和 soft skills, 并且因为需要的技能很多,最好形成团队来做一件事情.

 

Buiding a big data strategy:

  

 

strategy 要成功,需要管理层的支持,一个多技能的团队,相应的培训,一个测试idea 的mini lab, 移除存取数据的障碍

 

数据科学的5个P

  

 

Steps in the data science process

  

 

1. 获取原数据

  从哪里获取,通过什么技术?

  数据有结构化和非结构化的,来自不同来源. 结构化数据可以通过SQL 读取. 来自文件的data 可以通过Python等脚本语言读取. 远程数据(格式可能是xml, html, json ) 通过web service (rest, soap, web socket) 读取. 非结构化数据可以通过非结构数据库提供的API或者web service 来读取 (如下)

 

  

 

   

2. 准备数据 

  2.1 Explore data  - understand your data (分析correlation, 画图表)

  2.2 Pre-process (clean, integrate, package)  :

      Clean

      Transform (Scaling, feature selection, Dimensionality Reduction)

3. 分析数据 (选分析技术,创建model)

    要分析具体是什么问题然后选取对应的分析技术,比如,regression, classification, clustering, graph analytics, association analysis

4. 报告分析结果

  报告什么内容,用什么技术 (R, Python 都有很好的画图功能)

5. Action  - Turn insight into action

 

转载于:https://www.cnblogs.com/mashuai-191/p/9469043.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值