2015年02月_miller_lover

02月

转载全面落地，2014大数据应用案例TOP100

在当前的互联网领域，大数据的应用已十分广泛，尤其以企业为主，企业成为大数据应用的主体。大数据真能改变企业的运作方式吗？答案毋庸置疑是肯定的。随着企业开始利用大数据，我们每天都会看到大数据新的奇妙的应用，帮助人们真正从中获益。大数据的应用已广泛深入我们生活的方方面面，涵盖医疗、交通、金融、教育、体育、零售等各行各业。以下是《互联网周刊》发布的《2014大数据应用案例TOP100》。

2015-02-09 09:54:22 56084

转载 [译]精准医疗大家谈

医疗大数据专栏成立了！酝酿已久，今天，“医疗大数据专栏”正式成立。随着基因芯片及DNA测序技术的发展，生物医疗大数据迅猛发展，既是大数据技术发展的原动力，也是大数据技术的受益者。大数据文摘2013年7月成立，我们专注数据，每日坚持分享优质内容，从未间断，我们努力为读者和志愿者打造一个分享和交流平台。作为大数据文摘的志愿者群，我们中有不少人从事医疗大数据相关工作，关心医疗大数据的发展，愿

2015-02-09 09:50:39 1513

转载 Quora译文：通俗解释“为什么数据库难以拓展”

要扩展数据库有四大挑战：搜索、并发性、一致性和速度。假设你有一张清单，上面有10个人名。如果你想要查找某个人，只需要看一眼清单就行。数据库但如果清单上有100万个人名呢？这时，你就需要一些策略了。电话簿把人名按照字母顺序排列，这样你就可以略过不需要的部分了。这就是针对搜索问题的一种解决方案。如果有100万人在同时使用这本电话簿呢？这就是并发性的问题。

2015-02-09 09:47:55 1143

转载 Machine Learning Scientist Sr at Robert Half

Its a great question and merits some elaboration. So the short answer is hadoop and spark are not even apples to apples. Let me illustrate through my own personal experience 1. Say a company is

2015-02-06 10:26:40 749

转载 Spark生态系统解析及基于Redis的开源分布式服务Codis

摘要：在第九期“七牛开发者最佳实践日”上，陈超就Spark整个生态圈进行了讲解，而刘奇则分享豌豆荚在Redis上的摸索和实践。1月24日，一场基于Spark和Redis组成的分布式系统实践分享由Spark资深布道者陈超和豌豆荚资深系统架构师刘奇联手打造。陈超：Spark Ecosystem & Internals 陈超（@CrazyJvm），Spark布道者

2015-02-03 12:18:14 1294

转载深入解析NoSQL数据库的分布式算法

摘要：尽管NoSQL运动并没有给分布式数据处理带来根本性的技术变革，但是依然引发了铺天盖地的关于各种协议和算法的研究以及实践。在这篇文章里，我将针对NoSQL数据库的分布式特点进行一些系统化的描述。系统的可扩展性是推动NoSQL运动发展的的主要理由，包含了分布式系统协调，故障转移，资源管理和许多其他特性。这么讲使得NoSQL听起来像是一个大筐，什么都能塞进去。尽管NoSQL运动并没有给

2015-02-02 12:13:48 736

转载 Michael G. Noll：整合Kafka到Spark Streaming——代码示例和挑战

摘要：本文，Verisign实验室大规模数据分析基础设施的技术主管Michael通过示例对Kafka整合到Spark Streaming进行了详细讲解，更分享了该领域的现状和一些注意点。【编者按】作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细

2015-02-02 12:11:29 1127

转载美团推荐算法实践：机器学习重排序模型成亮点

摘要：本文介绍了美团网推荐系统的构建和优化过程中的一些做法，包括数据层、触发层、融合过滤层和排序层五个层次，采用了HBase、Hive、storm、Spark和机器学习等技术。两个优化亮点是将候选集进行融合与引入重排序模型。编者按：在用户意图明确时，我们通常用搜索引擎来解决互联网时代的信息过载问题，但当用户的意图不明确或者很难用清晰的语义表达，搜索引擎就无能为力。此时，借助推荐系统通过

2015-02-02 12:09:55 1601

转载大数据计算新贵Spark在腾讯雅虎优酷成功应用解析

摘要：MapReduce在实时查询和迭代计算上仍有较大的不足，目前，Spark由于其可伸缩、基于内存计算等特点，且可以直接读写Hadoop上任何格式的数据，逐渐成为大数据处理的新宠，腾讯分享了Spark的原理和应用案例。【编者按】MapReduce由于其设计上的约束只适合处理离线计算，在实时查询和迭代计算上仍有较大的不足，而随着业务的发展，业界对实时查询和迭代分析有更多的需求，单纯依靠

2015-02-02 12:06:51 1104

转载挖财首席架构师王福强：架构设计中的6大关键点

摘要：架构设计的重要性不言而喻，挖财首席架构师王福强日前在一个技术沙龙中分享了挖财架构设计中的6大关键点：系统层级分离；消息传递；异步化处理；信息存储，宁多勿缺；系统安全；存储冗余。编者按：要开发出用户满意的软件并不是件容易的事，软件架构师必须全面把握各种各样的需求、权衡需求之间有可能的矛盾之处，分门别类地将不同需求一一满足。在UPYUN Open Talk 第二期“移动时代互联网金融

2015-02-02 12:01:23 2674

转载 CNN提速23.5倍！Facebook开源DL模块带给我们什么？

摘要：日前，Facebook人工智能研究院（FAIR）宣布开源了一组深度学习软件库，是针对Torch机器学习框架的插件，基于NVIDIA的GPU，大大提升了神经网络的性能，可以用于计算机视觉和自然语言处理（NLP）等场景。Geoffrey Hinton的努力，使得深度学习（Deep Learning，DL）成为实现机器智能的核心技术。然而，深度学习的一些坑，如大型神经网络的

2015-02-02 11:58:36 907

转载自然语言处理哪家强？

摘要：语音交互事关未来，这点从大公司收购、投资、合作不断，就可见一斑。如苹果收购Siri、Novauris、Google收购多项语音识别技术专利、Facebook收购Wit.ai等、Amazon收购Yap……目前，基本上所有的巨头都有涉足。语音交互事关未来，国内外已经不少公司在抢蛋糕了，大公司收购、投资、合作不断，就可见一斑。目前，基本上所有的巨头都有涉足。苹果收购

2015-02-02 11:55:41 1589

转载 Spark奠基者博士论文中文版出来了

由 CSDN CODE翻译社区组织的长篇论文翻译An Architecture for Fast and General Data Processing on Large Clusters 经过长达3个月的历程终于全部翻译完成。该论文是Spark主要开发者Matei Zaharia的博士论文，全文共6章，超过4万字，是一部Spark方面的基本文献。从10月底开始，通过社区招募，

2015-02-02 11:53:24 955

big data presentation of talkingdata

2014-11-04

f4: Facebook’s Warm BLOB Storage System

Facebook’s corpus of photos, videos, and other Binary Large OBjects (BLOBs) that need to be reliably stored and quickly accessible is massive and continues to grow. As the footprint of BLOBs increases, storing them in our traditional storage system, Haystack, is becoming in- creasingly inefficient. To increase our storage efficiency, measured in the effective-replication-factor of BLOBs, we examine the underlying access patterns of BLOBs and identify temperature zones that include hot BLOBs that are accessed frequently and warm BLOBs that are accessed far less often. Our overall BLOB storage sys- tem is designed to isolate warm BLOBs and enable us to use a specialized warm BLOB storage system, f4. f4 is a new system that lowers the effective-replication-factor of warm BLOBs while remaining fault tolerant and able to support the lower throughput demands. f4 currently stores over 65PBs of logical BLOBs and reduces their effective-replication-factor from 3.6 to either 2.8 or 2.1. f4 provides low latency; is resilient to disk, host, rack, and datacenter failures; and provides sufficient throughput for warm BLOBs.

2014-10-29

The Linux Command Line

This book is a broad overview of “living” on the Linux command line. Unlike some books that concentrate on just a single program, such as the shell program, bash, this book will try to convey how to get along with the command line interface in a larger sense. How does it all work? What can it do? What's the best way to use it? This is not a book about Linux system administration. While any serious discussion of the command line will invariably lead to system administration topics, this book only touches on a few administration issues. It will, however, prepare the reader for additional study by providing a solid foundation in the use of the command line, an essential tool for any serious system administration task. This book is very Linux-centric. Many other books try to broaden their appeal by in-cluding other platforms such as generic Unix and OS X. In doing so, they “water down” their content to feature only general topics. This book, on the other hand, only covers contemporary Linux distributions. Ninety-five percent of the content is useful for users of other Unix-like systems, but this book is highly targeted at the modern Linux command line user.

2014-10-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人