大数据算法_30年开发经验大牛分享:数据算法,Hadoop/Spark大数据处理技巧pdf

前言

随着大规模搜索引擎(如Google和Yahoo!) 、基因组分析(DNA测序、RNA测序和生物标志物分析)以及社交网络(如Facebook和Twitter)的不断发展,需要生成和处理的数据量已经超过了千万亿字节。为了满足如此庞大的计算需求,我们需要高效、可伸缩的并行算法。MapReduce范式就是解决这些问题的一个 框架。

MapReduce是一个软件框架, 可以采用并行、分布式方式处理GB、TB,甚至PB级的大数据集,同时它也是一个在商用服务器集群之上完成大规模数据处理的执行框架。实现MapReduce的方法有很多,不过这本文中我们主要关注Apache Spark和MapReduce/Hadoop。你将通过简单而具体的示例来了解如何用Spark和Hadoop实现MapReduce。

本文将为以下领域提供了基本分布式算法(分别用MapReduce、Hadoop和Spark实现),并按照这些领域组织本文的章节:

  • 基本设计模式。
  • 数据挖掘和机器学习。
  • 生物信息、基因组和统计。
  • 优化技术。
873121883f218865b97b460415c7a91a.png

主要内容

本文档总共分为31章,因为内容实在是太多了,所以只做了一个简单的介绍,希望大家拿到手之后能够仔细研读,慢慢的去研究和掌握。

本文档中每一章分别提出一个问题,然后通过一组MapReduce算法加以解决。 MapReduce算法/解决方案相当完整( 包括MapReduce驱动器、映射器、组合器和归约器程序)。可以在项目中直接使用这些代码(不过,有时可能需要剪切粘贴你需要的部分)。

本文没有涉及MapReduce框架的底层理论,而是着重于提供使用MapReduce/Hadoop和Spark解决大数据难题的实用算法和示例。
本文档的主要内容包括:

  • 完成超大量交易的购物篮分析。
  • 数据挖掘算法[K-均值、K-近邻(kNN)和朴素贝叶斯]
  • 使用超大量基因组数据完成DNA测序和RNA测序。
  • 朴素贝叶斯分类和马尔可夫链实现数据和市场预测。
  • 推荐算法和成对文档相似性。
  • 线性回归、Cox回归和皮尔逊(Pearson) 相关系数。
  • 等位基因频率和DNA挖掘。
  • 社交网络分析(推荐系统、三角形计数,情感分析)。
22b838879182a1b87562059760781827.png
9926ac842e26865d7054fb1356897c2a.png

本文重点

本文的重点是掌握MapReduce范式,并提出一-些可以使用MapReduce/Hadoop算法解决的具体问题。对于这里提出的每一个问题,我们会详细介绍map()、combine()和reduce()函数,并提供完整的解决方案,包括:

  • 客户端,可以用适当的输人和输出参数调用驱动器。
  • 驱动器,明确map()和reduce()函数,并明确输入和输出。
  • 映射器类,实现map()函数。
  • 组合器类(如果需要),实现combine()函数。我们会讨论什么情况下有可能使用组合器。
  • 归约器类,实现reduce()函数。

本文的一个目标是提供一个循序渐进的指南,介绍如何使用Spark和Hadoop作为MapReduce算法的解决方案。另一个目标是展示如何将一 个MapReduce作业的输出作为另一个作业的输入(这称为MapReduce作业链或流水线)。

面向读者

面向了解Java基础知识并且想使用Hadoop和Spark开发MapReduce算法(数据挖掘、机器学习、生物信息技术、基因组和统计领域)和解决方案的软件工程师、软件架构师、数据科学家和应用开发人员。

数据算法 :Hadoop,Spark大数据处理技巧技术文档-获取方式

1.转发此文关注小编;

2.私信小编“学习”来得到获取方式;

3.感谢大家的支持,多多评论转发让大家受益。

本文档作者Mahmoud Parsian,计算机科学博士,是一位热衷于实践的软件专家,作为开发人员、设计人员、架构师和作者,他有30多年的软件开发经验。目前领导着Ilumina的大数据团队,在过去15年间,他主要从事Java (服务器端)、数据库、MapReduce和分布式计算的有关工作。Mahmoud还著有《JDBCRecipes》和《JDBC Metadata, MySQL ,and Oracle Recipes》等书(均由Apress出版)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
内容简介 大数据是当前最为流行的热点概念之一,其已由技术名词衍生到对很多行业产生颠覆性影响的社会现象,作为最明确的技术发展趋势之一,基于大数据的各种新型产品必将会对每个人的日常生活产生日益重要的影响。 《大数据日知录:架构与算法》从架构与算法角度全面梳理了大数据存储与处理的相关技术。大数据技术具有涉及的知识点异常众多且正处于快速演进发展过程中等特点,其技术点包括底层的硬件 体系结构、相关的基础理论、大规模数据存储系统、分布式架构设计、各种不同应用场景下的差异化系统设计思路、机器学习与数据挖掘并行算法以及层出不穷的新架构、新系统等。《大数据日知录:架构与算法》对众多纷繁芜杂的相关技术文献和系统进行了择优汰劣并系统性地对相关知识分门别类地进行整理和介绍,将大数据相关技术分为大数据基础理论、大数据系统体系结构、大数据存储,以及包含批处理、流式计算、交互式数据分析、图数据库、并行机器学习的架构与算法以及增量计算等技术分支在内的大数据处理等几个大的方向。通过这种体系化的知识梳理与讲解,相信对于读者整体和系统地了解、吸收和掌握相关的优秀技术有极大的帮助与促进作用。 《大数据日知录:架构与算法》的读者对象包括对NoSQL 系统及大数据处理感兴趣的所有技术人员,以及有志于投身到大数据处理方向从事架构师、算法工程师、数据科学家等相关职业的在校本科生及研究生。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值