数据库和大数据

本文介绍了数据库技术中的PyMongo接口,以及MapReduce和Hadoop在大数据处理中的角色。同时,讨论了NoSQL数据库和Spark的特性,以及大数据时代的5V特征和数据科学在各个领域的应用。强调了大数据在DT时代的重要性和必备技能,包括机器学习和分布式计算。
摘要由CSDN通过智能技术生成

数据库

PyMongo模块的使用-MongoDB的Python接口

MapReduce将数据分解成子集,在不同机器上分开处理,并把结果集合起来,从而处理大数据的泛化框架。

Hadoop是MapReduce的一种实现,类似于C++是面向对象编程的实现一样。

NoSQL-Not Only SQL,技能能更新颖,更高效地访问(如MapReduce)数据的数据库或数据库管理系统

Spark 由一个驱动程序构成,它运行用户的 main 函数并在聚类上执行多个并行操作。Spark 最吸引人的地方在于它提供的弹性分布数据集(RDD),那是一个按照聚类的节点进行分区的元素的集合,它可以在并行计算中使用。RDDs 可以从一个 Hadoop 文件系统中的文件(或者其他的 Hadoop 支持的文件系统的文件)来创建,或者是驱动程序中其他的已经存在的标量数据集合,把它进行变换。用户也许想要 Spark 在内存中永久保存 RDD,来通过并行操作有效地对 RDD 进行复用。最终,RDDs 无法从节点中自动复原。

  • 离线数据处理: hadoop / hbase / cassandra
  • 在线数据处理:storm / s4
  • 跨语言通信:thrift / proobuf / avro, elephant bird
  • 一致性:zoo keeper / chubby
  • 数据查看:hive / pig
  • 数据传输:scribe

大数据

按照马云的说法,现在已经从IT时代进入了DT时代,这个地方的DT强调的就是大数据。
目前大数据的应用非常广泛,从资讯分发到视频娱乐,大数据无处不在。
目前大数据已经成为了热门投资方向之一,在资本的大力支持下,
大数据产业快速发展,预计到2020年中国大数据产业规模或超过万亿。
在重视数据的今天,大数据行业必定会成为2019年的创业风口。

Data_analysis 数据分析处理

用户行为定向

computational advertising reading list (计算广告阅读)

Big Data 大数据/数据挖掘/推荐系统/机器学习相关资源

  • 收集 -> 加工 -> 变现 -> 交易
  • 收集:不同行业不同的收集方式,传感器自动收集
  • 加工:用户画像,将原始数据转化成业务所需要的数据
  • 变现:已有成熟的互联网解决方案,流量和数据变现

现在大数据–5V特征

  • 速度V(velocity)(实时,快速流动)、
  • 多样化V(variety)(结构化,非结构化如微博内容)、
  • 大数据量(volume)、
  • 真实性(veracity)、
  • 价值(value)

数据科学家=数据+科学+艺术家=用数据和科学从事艺术创作的人

一些数据科学应用的领域

必备技能

  • 1、 机器学习,统计学技能是基础
  • 2、 领域知识
  • 3、 分布式计算

核心能力:

  • 1、 统计学基本准则
  • 2、 机器学习建模能力
  • 3、 模型最优化
  • 4、 大数据工具、编程能力
  • 5、 领域知识学习能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  • 22
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值