阿里巴巴大数据实践之数据建模

随着DT时代互联网、智能设备及其他信息技术的发展,数据爆发式增长,如何将这些数据进行有序、有结构地分类组织和存储是我们面临的一个挑战。为什么需要数据建模如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文...

2017-07-28 11:29:18

阅读数:1781

评论数:0

2017年值得收藏的八个设计工具和资源

这是一个锤子。更准确的说,这是一个 1960 年代末的老式 Estwing 羊角锤。它制作精美,做工牢固,但跟我们今天生产的 Estwing 锤子差别不大。锤子——他们使用的方式,在过去 50 年并没有发生多大变化。但是,我们使用的 web 设计工具和资源则完全不同。可以比对下你现在使用的工具和 ...

2017-07-25 13:39:28

阅读数:500

评论数:0

浅谈分布式事务

现今互联网界,分布式系统和微服务架构盛行。一个简单操作,在服务端非常可能是由多个服务和数据库实例协同完成的。在一致性要求较高的场景下,多个独立操作之间的一致性问题显得格外棘手。基于水平扩容能力和成本考虑,传统的强一致的解决方案(e.g.单机事务)纷纷被抛弃。其理论依据就是响当当的CAP原理。往往为...

2017-07-24 13:34:34

阅读数:126

评论数:0

如何快速全面建立自己的大数据知识体系?

作者经过研发多个大数据产品,将自己形成关于大数据知识体系的干货分享出来,希望给大家能够快速建立起大数据产品的体系思路,让大家系统性学习和了解有关大数据的设计架构。 很多人都看过不同类型的书,也接触过很多有关大数据方面的文章,但都是很零散不成系统,对自己也没有起到多大的作用,所以作者第一时间,...

2017-07-21 10:57:48

阅读数:142

评论数:0

东西部并进,健康医疗大数据产业发展开启新篇章

摘要:中国卫生信息学会健康医疗大数据产业发展与信息安全专委会工作会暨专家论坛 在成都顺利举行。会上,国家卫生计生委金小桃副主任发表重要讲话,成都市、福州市副市长以及包括中国电子、腾讯、红杉资本中国基金、清华大学等参与健康医疗大数据中心与产业园建设国家试点工程的热烈讨论。 (论坛主持人:中国电子...

2017-07-17 17:07:14

阅读数:32

评论数:0

Weiflow——微博机器学习框架

作者:吴磊,新浪微博算法平台高级工程师,主要负责以Spark为核心的大数据计算框架、机器学习平台的设计和实现。曾任职于IBM、联想研究院,从事数据库、数据仓库、大数据分析相关工作。颜发才,新浪微博机器学习研发部门算法工程师,毕业于上海交通大学,为Spark,Pandas,Scikit-lea...

2017-07-16 22:40:04

阅读数:381

评论数:0

Apache Spark 2.2.0 正式发布,建议所有2.x用户升级

Apache Spark 2.2.0 是2.x系列的第三个版本,该发行版移除了Structured Streaming的实验标签,处理了1100多个问题,更关注可用性、稳定性和性能优化。建议所有2.x用户更新至2.2.0版本,点击访问下载页面,用户可以在JIRA中查询更多细节。以下按照主要模块,对...

2017-07-12 15:06:01

阅读数:189

评论数:0

史上最全,100+大数据开源处理工具汇总

本文除了一些常用的大数据工具,还总结汇总了其他大数据工具,几乎是最全的大数据工具的总结。 如果你想入门大数据,可以对他们进行简单的了解。 如果你想学习自己熟悉意外的大数据工具,可以看这篇文章。 如果你想选择一个适合自己公司的大数据工具,也可以参考这篇文章。 我们将针对大数据开源工具...

2017-07-11 16:07:49

阅读数:589

评论数:0

Spark Streaming应用与实战全攻略(Ⅱ)

作者:小小默,开源爱好者,关注Hadoop/Spark、机器学习、人工智能等相关技术。更多精彩欢迎关注作者个人博客。 Spark Streaming应用与实战系列包括以下六部分内容: 背景与架构改造 通过代码实现具体细节,并运行项目 对Streaming监控的介绍以及解决实际问题 对项目做压...

2017-07-07 14:48:01

阅读数:447

评论数:1

随笔|关于数据感悟

➤明确技术与业务的关系 知识和发明来自实践和生产的实际需要,OSI的7层模型再美、再学院化也没有干过TCP/IP。 切莫强求技术驱动,技术职责第一要务是做好深度服务业务。 数据产品不同于一般业务系统。隔行如隔山,跨部门项目往往对双方团队的时间管理、利益妥协、沟通协作和交付提出了很高很难的要求,数据...

2017-07-05 17:27:19

阅读数:96

评论数:0

谁是王者?百度、阿里和腾讯的大数据发展路线和区别

本文转自36大数据,已获授权。作者:麒麟。 看中国科技企业发展,先看BAT。三家公司各自占据自己的领域,成为了无数小公司叹为仰止的高山,在大数据的领域里,又尤以BAT最为耀眼。在前不久的一次公开会议上,李彦宏、马云、马化腾又对数据的应用产生了公开分歧,三者分别认为数据的价值在于算法、数据量、...

2017-07-05 13:22:30

阅读数:625

评论数:0

Livy:基于Apache Spark的REST服务

作者简介:邵赛赛,Hortonworks技术专家,专注于开源大数据领域,Apache Spark和Livy的活跃贡献者。前Intel大数据团队成员,专注于Apache Hadoop和Spark等相关大数据平台的性能测试,调优以及改进。 责编:郭芮(guorui@csdn.net),关...

2017-07-03 08:48:32

阅读数:1974

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭