Spark亚太研究院王家林：从技术的…

最新推荐文章于 2020-09-20 20:34:14 发布

lotus_tang

最新推荐文章于 2020-09-20 20:34:14 发布

阅读量2.1k

点赞数

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010490755/article/details/50313215

版权

2014-12-04 10:20 记者：林师授整理：张伟

第二代大数据技术Spark

首先先来抛开这两种技术，谈一下大数据。大数据是数据的一种，数据处理到达一定复杂程度，或者数据规模到达一定程度的时候便会称之为大数据。在采访中王家林讲到：“其实关于大数据的处理本身包含两部分，一部分是数据的存储，另外一部分就是数据计算本身。目前而言谈大数据大家最常知道的技术是Hadoop，做得比较资深会再使用Spark。那么这两项技术到底各自有什么样的历史地位或者说各自有什么价值呢？”

Hadoop准确地说是称为第一代大数据技术，而Spark可以把它称之为第二代大数据技术。Hadoop开启了人们大规模使用大数据的这样一个时代，但由于Hadoop本身架构的一些自己已有的机制，例如说它每次操作都要经过读写磁盘，这极大地限制了它的速度和计算模型。

而Spark由于具有了Hadoop这样第一代技术的参考和借鉴，以及它自己充满了学术基因。了解Spark的朋友都知道，它是来自于APM实验室的，它一开始就专注于数据的计算，而且是专注于任意规模、任意类型的数据计算，用它自己的口号就是一站式一体化多元化的大数据处理。所以说Spark的时候，主要是聚焦在大数据处理，而这种处理主要有三方面。

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark亚太研究院王家林：从技术的…

2014-12-04 10:20 记者：林师授整理：张伟第二代大数据技术Spark 首先先来抛开这两种技术，谈一下大数据。大数据是数据的一种，数据处理到达一定复杂程度，或者数据规模到达一定程度的时候便会称之为大数据。在采访中王家林讲到：“其实关于大数据的处理本身包含两部分，一部分是数据的存储，另外一部分就是数据计算本身。目前而言谈大数据大家最常知道的技术是Hadoop，做得比较
复制链接

扫一扫

专栏目录

lotus_tang CSDN认证博客专家 CSDN认证企业博客

码龄11年

101: 原创

14万+: 周排名

62万+: 总排名

20万+: 访问

: 等级

1914: 积分

18: 粉丝

31: 获赞

19: 评论

115: 收藏

私信

关注

热门文章

分类专栏

办公技能 11篇
技术基础 8篇
生活 8篇
论文 7篇
Hadoop 14篇
ORACLE 12篇
网络编程 29篇
环境配置 8篇
机器学习 4篇
Linux 15篇
Spark 3篇
可视化 3篇
代码工程 2篇
算法工程 1篇
NLP 1篇
算法设计

最新评论

U盘无法完成格式化/读取/损坏怎么…
dintc: U盘先别格式化，用极限数据恢复软件恢复里面的文件。
Attention可视化
qq_41158880: 请问注意力分数矩阵怎么获取
Attention可视化
Butterfly_lily1204: def createHTML(texts, weights, fileName): 是这个吗？这个我没用唉，不过传入的应该也是句子和注意力权重吧
Attention可视化
aaapengs: 您发的是分数矩阵嘛？请问creatHTML 可视化attention 函数要求输入的是什么呀
Attention可视化
Butterfly_lily1204: [code=python] def plot_attention(data, X_label=None, Y_label=None): ''' data: 注意力分数矩阵(softmax后，加权平均之前) X_label: 横坐标，我传入了句子的分词列表 Y_label: 纵坐标，也是句子的分词列表自注意力这两个坐标应该是一样的 ''' [/code]

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。