2018年05月_爱萨萨

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

转载五种基于 MapReduce 的并行计算框架介绍及性能测试

并行计算模型和框架目前开源社区有许多并行计算模型和框架可供选择，按照实现方式、运行机制、依附的产品生态圈等可以被划分为几个类型，每个类型各有优缺点，如果能够对各类型的并行计算框架都进行深入研究及适当的缺点修复，就可以为不同硬件环境下的海量数据分析需求提供不同的软件层面的解决方案。并行计算框架并行计算或称平行计算是相对于串行计算来说的。它是一种一次可执行多个指令的算法，目的是提高计算速度，以及通过扩...

2018-05-22 16:52:02 5046

原创 eclipse中创建并使用maven项目问题记录

1、使用maven创建了web项目，启动tomcat时提示“org.apache.catalina.deploy.WebXml addServlet”；处理：修改eclipse中“Servers”里的tomcat的context.xml文件，增加“<Loader delegate="true"/>”即可；2、创建web项目后，pom.xml总提示“Missing artifact or...

2018-05-22 16:43:28 242

转载 MapReduce数据并行计算模型介绍

1、MapReduce来龙去脉 MapReduce是一个说难懂也难懂、说好懂也好懂的概念。说它难懂，是因为，如果你只理论上的去学习、去理解，确实很难懂。说它好懂，是因为，如果你亲手在hadoop运行过几个MapReduce的job，并稍微学点hadoop的工作原理，基本上也就理解MapReduce的概念了。所以，有句话说的特别好：“如果将编程比作运动的话，那么它绝对不是表演项目，而是竞技项目...

2018-05-22 16:41:18 630

转载 MapReduce的输入输出格式

默认的mapper是IdentityMapper，默认的reducer是IdentityReducer，它们将输入的键和值原封不动地写到输出中。默认的partitioner是HashPartitinoer，它根据每条记录的键进行哈希操作来分区。输入文件：文件是MapReduce任务的数据的初始存储地。正常情况下，输入文件一般是存在HDFS里。这些文件的格式可以是任意的；我们可以使用基于行的日志文件...

2018-05-22 06:46:25 2889

转载 MapReduce框架Partitioner分区方法

前言：对于二次排序相信大家也是似懂非懂，我也是一样，对其中的很多方法都不理解诶，所有只有暂时放在一边，当你接触到其他的函数，你知道的越多时你对二次排序的理解也就更深入了，同时建议大家对wordcount的流程好好分析一下，要真正的知道每一步都是干什么的。1.Partitioner分区类的作用是什么？2.getPartition()三个参数分别是什么？3.numReduceTasks指的是设置的Re...

2018-05-18 07:25:51 230

转载根证书含义

本文想简单谈谈那个所谓的“根证书”。在访问铁道部网上售票官网 www.12306.cn 后，有一个醒目的提示，为保证顺畅购票，需要下载安装根证书。那么什么是根证书？为什么买火车票的时候需要下载和安装，在淘宝等在线交易网站购物时候为什么就不需要这样做？今年开始，人民群众们终于可以通过互联网购买火车票了。虽然说在线买的难度不比以往排队购买低多少，但这总算是一次值得鼓励的尝试。不过在线购票系统一经退出，...

2018-05-17 17:11:45 6575

转载解决maven项目Cannot change version of project facet Dynamic web module to 3.0

2、打开项目所在目录下的.settings文件夹2.1修改项目的设置，打开项目.settings目录下的org.eclipse.jdt.core.prefs（打开工具例如NOTEPAD++）把1.5改成1.8，例如：1 eclipse.preferences.version=12 org.eclipse.jdt.core.compiler.codegen.inlineJsrBytecode=en...

2018-05-17 07:10:22 152

转载 MapReduce之combine

Combine优化机制简介 MapReduce框架的运作基于键值对，即数据的输入是键值对，生成的结果也是存放在集合里的键值对，其中键值对的值也是一个集合，一个MapReduce任务的执行过程以及数据输入输出的类型如下所示，这里我们定义list表示集合：　　map（K1， V1） -> list（K2， V2）　　combine（K2， list（V2）） -> list（K2， V...

2018-05-15 17:23:21 4018

转载 Hadoop中MapReduce中combine、partition、shuffle的作用是什么？在程序中怎么运用？

InputFormat类：该类的作用是将输入的文件和数据分割成许多小的split文件，并将split的每个行通过LineRecorderReader解析成<Key,Value>,通过job.setInputFromatClass()函数来设置，默认的情况为类TextInputFormat，其中Key默认为字符偏移量，value是该行的值。Map类：根据输入的<Key,Value&...

2018-05-15 17:20:07 1262 1

转载 Mapreduce中Combiner的使用及误区

问题提出：众所周知，Hadoop框架使用Mapper将数据处理成一个<key,value>键值对，再网络节点间对其进行整理(shuffle)，然后使用Reducer处理数据并进行最终输出。在上述过程中，我们看到至少两个性能瓶颈：（引用）如果我们有10亿个数据，Mapper会生成10亿个键值对在网络间进行传输，但如果我们只是对数据求最大值，那么很明显的Mapper只需要输出它所知...

2018-05-15 17:17:51 213

转载（hadoop学习－1）mapreduce实现数据过滤、聚合与排序

https://blog.csdn.net/xuefei2/article/details/51655798翻译：http://blog.ditullio.fr/2015/12/24/hadoop-basics-filter-aggregate-sort-mapreduce/数据源：对样例数据集Donations进行过滤、聚合与排序操作。数据来自donaorschoose。解压缩后是一个1.5G的...

2018-05-15 16:59:09 2003

转载 MapReduce聚合

mapreduce的核心思想就是：map读入一条记录，然后重置其key 、value；reduce针对map的同一条key，把其values整合，然后重新输出key、value;这两天做mapreduce时，忽然有种想法：针对一行记录,是否有输出多行记录，包含有不同到key，value，的情况；这种情况到应用是否有好处呢？假设有这样的一个数据：其中第一列代表用户的标识，第二列代表书籍的标识1,A1...

2018-05-15 08:36:16 1152

转载 9.聚合函数count+distinct+group + MapReduce

1.max最大值 min最小值mongoDB不像SQL那样有min() 和max()函数。但是可以通过sort排序和limit限制返回来得到想要的结果找到投票数helpful_votes**最多**的评论：（最大值，按照降序排列，并限制返回第1条记录）db.reviews.find({}).sort({helpful_votes : -1}).limit(1)1找到投票数helpful_votes...

2018-05-15 08:34:35 450

转载大数据算法：对5亿数据进行排序

前言：在大数据研究的路上，我们总要对一些很大的数据进行各种各样的操作。比如说对数据排序，比如说对数据统计，比如说对数据计算。而在大量的数据面前，我们总是束手无策，因为我们无法在限定时间的情况下，在效率上做到让人满意，也无法在限定空间的情况下，能够快速解决问题。可能我们在一些日常的开发过程中，没有遇到过这些问题。不过，现在是时候来考虑一下这样的问题了。因为，现在正值大数据的时代。在本文中我会...

2018-05-14 16:48:54 2748

转载 Hadoop MapReduce执行过程详解（带hadoop例子）

摘要: 本文通过一个例子，详细介绍Hadoop 的 MapReduce过程。分析MapReduce执行过程 MapReduce运行的时候，会通过Mapper运行的任务读取HDFS中的数据文件，然后调用自己的方法，处理数据，最后输出。Reducer任务会接收Mapper任务输出的数据，作为自己的输入数据，调用自己的方法，最后输出到HDFS的文件中。整个流程如图：Mapper任务的执行过程详解每...

2018-05-10 08:58:11 233

转载大数据文本分类、聚类思想

大数据文本分类、聚类对大数据文本进行分类聚类1.获取数据-用爬虫爬取微薄数据。2.分词-使用jieba进行中文分词。3.使用IF_IDF把文本向量化-分词后，使用IF_IDF把文本向量化，每个文本对应一个向量 python有可以直接使用scikit-learn工具计算文本TF-IDF的值4.使用KMeans算法聚类-根据上一步得到的各文本的TF-IDF值，使用KMeans算法自动聚类。各文本所对...

2018-05-09 08:24:07 1293

转载【聚类·分类·回归】数据挖掘之聚类、分类、回归

1.分类（classification）有监督学习的两大应用之一，产生离散的结果。例如向模型输入人的各种数据的训练样本，产生“输入一个人的数据，判断是否患有癌症”的结果，结果必定是离散的，只有“是”或“否”。分类方法是一种对离散型随机变量建模或预测的监督学习算法。使用案例包括邮件过滤、金融欺诈和预测雇员异动等输出为类别的任务。许多回归算法都有与其相对应的分类算法，分类算法通常...

2018-05-09 07:14:48 27549 1

转载朴素贝叶斯分类流程图介绍

2011年12月19日 15:07:03 1.1、摘要贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。本文作为分类算法的第一篇，将首先介绍分类问题，对分类问题进行一个正式的定义。然后，介绍贝叶斯分类算法的基础——贝叶斯定理。最后，通过实例讨论贝叶斯分类中最简单的一种：朴素贝叶斯分类。1.2、分类问题综述对于分类问题，其实谁都不会陌生，说我们...

2018-05-09 07:02:55 21193 2

转载协同过滤算法的原理及实现

协同过滤的优势: 1.不需要考虑推荐的内容。 2.可以为用户提供新异推荐。 3.推荐对象可以为任何类型的资源。 4.对用户的干扰性较小。 5.技术易于实现。协同过滤的问题： 1.稀疏性。 2.多内容。 3.可扩展性。协同过滤通常可以分为两类:基于记忆的协同过滤和基于模型的协同过滤。典型的基于记忆的协同过滤有最邻近协同过滤及其改进算法。典型的基于模型的...

2018-05-09 06:54:25 2864

转载大数据学习——过滤及推荐常用算法简介

一、过滤算法Bloom-Filter算法简介即布隆过滤器，1970年由Bloom提出，它可以用于检索一个元素否在一个集合中。它是一种空间效率很高的随机数据结构，它利用数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的概率算法。BF有可能出现错判，但不会漏掉判断。因此它适合那些“零错误”的应用场合。Bloom-Filter的基本思想是利用我个不同的Hash函...

2018-05-09 06:52:28 5631

转载 hadoop与第三方（CDH等）的比较

CDH 1、CDH简介CDH：全称Cloudera’s Distribution Including Apache Hadoop　　CDH版本衍化　　hadoop是一个开源项目，所以很多公司在这个基础进行商业化，Cloudera对hadoop做了相应的改变。　　Cloudera公司的发行版，我们将该版本称为CDH(Cloudera Distribution Hadoop)。截至目前为止，CDH共有...

2018-05-09 06:50:45 19126 1

转载 Cloudera(CDH) 简介和在线安装

实验背景笔者需要维护线上的hadoop集群环境，考虑在本地搭建一套类似的hadoop集群，便于维护与管理。Cloudera 简介经过搜索发现Cloudera产品很适合笔者当前需求，于是开始研究Cloudera（CDH）的安装与使用，参考：Cloudera 官网：https://www.cloudera.comCloudera 官方文档： https://www.cloudera.com/docum...

2018-05-09 06:47:09 513

转载 CDH（Cloudera）与hadoop（Apache）对比

问题导读：1.hadoop有几个版本？2.CDH有几种安装方式？3.CDH在安装认证方面做了什么改变？Cloudera的CDH和Apache的Hadoop的区别目前而言，不收费的Hadoop版本主要有三个（均是国外厂商），分别是：Apache（最原始的版本，所有发行版均基于这个版本进行改进）、Cloudera版本（Cloudera’s Distribution Including Apache...

2018-05-09 06:44:15 498

转载大数据算法十大经典算法

一、C4.5C4.5，是机器学习算法中的一个分类决策树算法，它是决策树(决策树也就是做决策的节点间的组织方式像一棵树，其实是一个倒树)核心算法ID3的改进算法，所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。C4.5相比于ID3改进的地方有：1、用信息增益率来选择属性。ID3选择属性用的是子树的信息增益，这里可以用很多方法来...

2018-05-09 06:27:34 3850

转载将Hadoop 2.6.0源码导入到Eclipse

我的环境：Windows 7 64bitNTFS格式文件系统Administrator用户Eclipse(Luna Service Release 2 (4.4.2))JDK 1.7(Oracle官网下载)最好不要用1.8，因为导入源码后还想编译的话会出现问题。hadoop-src-2.6.0.tar.gz(在官网下载的源码：http://www.apache.org/dyn/closer.cgi...

2018-05-08 08:33:45 127