2017年07月_言则yanze

原创阿里巴巴大数据实践之数据建模

随着DT时代互联网、智能设备及其他信息技术的发展，数据爆发式增长，如何将这些数据进行有序、有结构地分类组织和存储是我们面临的一个挑战。为什么需要数据建模如果把数据看作图书馆里的书，我们希望看到它们在书架上分门别类地放置；如果把数据看作城市的建筑，我们希望城市规划布局合理；如果把数据看作电脑文件和文件夹，我们希望按照自己的习惯有很好的文件夹组织方式，而不是糟糕混乱的桌面，经常为找一个文件而不知所措。...

2017-07-28 11:29:18 8088

原创 2017年值得收藏的八个设计工具和资源

这是一个锤子。更准确的说，这是一个 1960 年代末的老式 Estwing 羊角锤。它制作精美，做工牢固，但跟我们今天生产的 Estwing 锤子差别不大。锤子——他们使用的方式，在过去 50 年并没有发生多大变化。但是，我们使用的 web 设计工具和资源则完全不同。可以比对下你现在使用的工具和 5 年前使用的有什么不同。在 2012 年，你可能使用 PNGs 做图标。Photoshop 无处不在...

2017-07-25 13:39:28 1492

原创浅谈分布式事务

现今互联网界，分布式系统和微服务架构盛行。一个简单操作，在服务端非常可能是由多个服务和数据库实例协同完成的。在一致性要求较高的场景下，多个独立操作之间的一致性问题显得格外棘手。基于水平扩容能力和成本考虑，传统的强一致的解决方案（e.g.单机事务）纷纷被抛弃。其理论依据就是响当当的CAP原理。往往为了可用性和分区容错性，忍痛放弃强一致支持，转而追求最终一致性。分布式系统的特性在分布式系统中，同时满足...

2017-07-24 13:34:34 795

原创如何快速全面建立自己的大数据知识体系？

作者经过研发多个大数据产品，将自己形成关于大数据知识体系的干货分享出来，希望给大家能够快速建立起大数据产品的体系思路，让大家系统性学习和了解有关大数据的设计架构。很多人都看过不同类型的书，也接触过很多有关大数据方面的文章，但都是很零散不成系统，对自己也没有起到多大的作用，所以作者第一时间，带大家从整体体系思路上，了解大数据产品设计架构和技术策略。大数据产品，从系统性和体系思路上来做，主要分...

2017-07-21 10:57:48 959

原创 Weiflow——微博机器学习框架

作者：吴磊，新浪微博算法平台高级工程师，主要负责以Spark为核心的大数据计算框架、机器学习平台的设计和实现。曾任职于IBM、联想研究院，从事数据库、数据仓库、大数据分析相关工作。颜发才，新浪微博机器学习研发部门算法工程师，毕业于上海交通大学，为Spark，Pandas，Scikit-learn提交过代码贡献。责编：郭芮（[email protected]），关注大数据领域。本...

2017-07-16 22:40:04 1221

原创 Apache Spark 2.2.0 正式发布，建议所有2.x用户升级

Apache Spark 2.2.0 是2.x系列的第三个版本，该发行版移除了Structured Streaming的实验标签，处理了1100多个问题，更关注可用性、稳定性和性能优化。建议所有2.x用户更新至2.2.0版本，点击访问下载页面，用户可以在JIRA中查询更多细节。以下按照主要模块，对更新内容进行了分组：核心 & Spark SQL Structured Str...

2017-07-12 15:06:01 923

原创史上最全，100+大数据开源处理工具汇总

本文除了一些常用的大数据工具，还总结汇总了其他大数据工具，几乎是最全的大数据工具的总结。如果你想入门大数据，可以对他们进行简单的了解。如果你想学习自己熟悉意外的大数据工具，可以看这篇文章。如果你想选择一个适合自己公司的大数据工具，也可以参考这篇文章。我们将针对大数据开源工具不同的用处来进行分类，并且附上了官网和部分下载链接，希望能给做大数据的朋友做个参考。下面是第一部分。查...

2017-07-11 16:07:49 2420

原创 Spark Streaming应用与实战全攻略（Ⅱ）

作者：小小默，开源爱好者，关注Hadoop/Spark、机器学习、人工智能等相关技术。更多精彩欢迎关注作者个人博客。Spark Streaming应用与实战系列包括以下六部分内容：背景与架构改造通过代码实现具体细节，并运行项目对Streaming监控的介绍以及解决实际问题对项目做压测与相关的优化Streaming持续优化之HBase管理Streaming任务点此阅读第一部分内...

2017-07-07 14:48:01 953 1

原创随笔｜关于数据感悟

➤明确技术与业务的关系知识和发明来自实践和生产的实际需要，OSI的7层模型再美、再学院化也没有干过TCP/IP。切莫强求技术驱动，技术职责第一要务是做好深度服务业务。数据产品不同于一般业务系统。隔行如隔山，跨部门项目往往对双方团队的时间管理、利益妥协、沟通协作和交付提出了很高很难的要求，数据产品要有价值，必须获取足量、高质的数据，建立跨部门、跨业务的统一数据视图前景美妙但步履维艰，保持持久热...

2017-07-05 17:27:19 367

原创谁是王者？百度、阿里和腾讯的大数据发展路线和区别

本文转自36大数据，已获授权。作者：麒麟。看中国科技企业发展，先看BAT。三家公司各自占据自己的领域，成为了无数小公司叹为仰止的高山，在大数据的领域里，又尤以BAT最为耀眼。在前不久的一次公开会议上，李彦宏、马云、马化腾又对数据的应用产生了公开分歧，三者分别认为数据的价值在于算法、数据量、场景化，这其实是暗合了三家公司的经营方向与理念。百度掌技术，阿里重规模，腾讯把持着社交与游戏，是妥妥的...

2017-07-05 13:22:30 3169

原创 Livy：基于Apache Spark的REST服务

作者简介：邵赛赛，Hortonworks技术专家，专注于开源大数据领域，Apache Spark和Livy的活跃贡献者。前Intel大数据团队成员，专注于Apache Hadoop和Spark等相关大数据平台的性能测试，调优以及改进。责编：郭芮（[email protected]），关注大数据领域。本文为《程序员》原创文章，未经允许不得转载，更多精彩文章请订阅2017年《程序...

2017-07-03 08:48:32 6149 1

imgxr的博客