自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 阿里巴巴大数据实践之数据建模

随着DT时代互联网、智能设备及其他信息技术的发展,数据爆发式增长,如何将这些数据进行有序、有结构地分类组织和存储是我们面临的一个挑战。为什么需要数据建模如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。...

2017-07-28 11:29:18 8088

原创 2017年值得收藏的八个设计工具和资源

这是一个锤子。更准确的说,这是一个 1960 年代末的老式 Estwing 羊角锤。它制作精美,做工牢固,但跟我们今天生产的 Estwing 锤子差别不大。锤子——他们使用的方式,在过去 50 年并没有发生多大变化。但是,我们使用的 web 设计工具和资源则完全不同。可以比对下你现在使用的工具和 5 年前使用的有什么不同。在 2012 年,你可能使用 PNGs 做图标。Photoshop 无处不在...

2017-07-25 13:39:28 1492

原创 浅谈分布式事务

现今互联网界,分布式系统和微服务架构盛行。一个简单操作,在服务端非常可能是由多个服务和数据库实例协同完成的。在一致性要求较高的场景下,多个独立操作之间的一致性问题显得格外棘手。基于水平扩容能力和成本考虑,传统的强一致的解决方案(e.g.单机事务)纷纷被抛弃。其理论依据就是响当当的CAP原理。往往为了可用性和分区容错性,忍痛放弃强一致支持,转而追求最终一致性。分布式系统的特性在分布式系统中,同时满足...

2017-07-24 13:34:34 795

原创 如何快速全面建立自己的大数据知识体系?

作者经过研发多个大数据产品,将自己形成关于大数据知识体系的干货分享出来,希望给大家能够快速建立起大数据产品的体系思路,让大家系统性学习和了解有关大数据的设计架构。很多人都看过不同类型的书,也接触过很多有关大数据方面的文章,但都是很零散不成系统,对自己也没有起到多大的作用,所以作者第一时间,带大家从整体体系思路上,了解大数据产品设计架构和技术策略。大数据产品,从系统性和体系思路上来做,主要分...

2017-07-21 10:57:48 959

原创 Weiflow——微博机器学习框架

作者:吴磊,新浪微博算法平台高级工程师,主要负责以Spark为核心的大数据计算框架、机器学习平台的设计和实现。曾任职于IBM、联想研究院,从事数据库、数据仓库、大数据分析相关工作。颜发才,新浪微博机器学习研发部门算法工程师,毕业于上海交通大学,为Spark,Pandas,Scikit-learn提交过代码贡献。 责编:郭芮([email protected]),关注大数据领域。 本...

2017-07-16 22:40:04 1221

原创 Apache Spark 2.2.0 正式发布,建议所有2.x用户升级

Apache Spark 2.2.0 是2.x系列的第三个版本,该发行版移除了Structured Streaming的实验标签,处理了1100多个问题,更关注可用性、稳定性和性能优化。建议所有2.x用户更新至2.2.0版本,点击访问下载页面,用户可以在JIRA中查询更多细节。以下按照主要模块,对更新内容进行了分组: 核心 & Spark SQL Structured Str...

2017-07-12 15:06:01 923

原创 史上最全,100+大数据开源处理工具汇总

本文除了一些常用的大数据工具,还总结汇总了其他大数据工具,几乎是最全的大数据工具的总结。 如果你想入门大数据,可以对他们进行简单的了解。 如果你想学习自己熟悉意外的大数据工具,可以看这篇文章。 如果你想选择一个适合自己公司的大数据工具,也可以参考这篇文章。我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考。下面是第一部分。查...

2017-07-11 16:07:49 2420

原创 Spark Streaming应用与实战全攻略(Ⅱ)

作者:小小默,开源爱好者,关注Hadoop/Spark、机器学习、人工智能等相关技术。更多精彩欢迎关注作者个人博客。Spark Streaming应用与实战系列包括以下六部分内容:背景与架构改造通过代码实现具体细节,并运行项目对Streaming监控的介绍以及解决实际问题对项目做压测与相关的优化Streaming持续优化之HBase管理Streaming任务点此阅读第一部分内...

2017-07-07 14:48:01 953 1

原创 随笔|关于数据感悟

➤明确技术与业务的关系知识和发明来自实践和生产的实际需要,OSI的7层模型再美、再学院化也没有干过TCP/IP。切莫强求技术驱动,技术职责第一要务是做好深度服务业务。数据产品不同于一般业务系统。隔行如隔山,跨部门项目往往对双方团队的时间管理、利益妥协、沟通协作和交付提出了很高很难的要求,数据产品要有价值,必须获取足量、高质的数据,建立跨部门、跨业务的统一数据视图前景美妙但步履维艰,保持持久热...

2017-07-05 17:27:19 367

原创 谁是王者?百度、阿里和腾讯的大数据发展路线和区别

本文转自36大数据,已获授权。作者:麒麟。看中国科技企业发展,先看BAT。三家公司各自占据自己的领域,成为了无数小公司叹为仰止的高山,在大数据的领域里,又尤以BAT最为耀眼。在前不久的一次公开会议上,李彦宏、马云、马化腾又对数据的应用产生了公开分歧,三者分别认为数据的价值在于算法、数据量、场景化,这其实是暗合了三家公司的经营方向与理念。百度掌技术,阿里重规模,腾讯把持着社交与游戏,是妥妥的...

2017-07-05 13:22:30 3169

原创 Livy:基于Apache Spark的REST服务

作者简介:邵赛赛,Hortonworks技术专家,专注于开源大数据领域,Apache Spark和Livy的活跃贡献者。前Intel大数据团队成员,专注于Apache Hadoop和Spark等相关大数据平台的性能测试,调优以及改进。 责编:郭芮([email protected]),关注大数据领域。 本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅2017年《程序...

2017-07-03 08:48:32 6149 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除