大数据
文章平均质量分 72
hadoop/mahout/hive/hbase/mapreduce大数据
MrCharles
隐私
展开
-
Mahout In Action-第一章:初识Mahout
1. 初识Mahout本章涵盖以下内容:Apache Mahout是什么?现实中推荐系统引擎、聚类、分类概述配置mahout读者可能从本书的标题中猜测到,本书是一本讲解如何将mahout应用于业界的工具书。他有三个特性:一是Mahout是Apache开源的机器学习库。它实现的算法都被归入机器学习或者集体智慧的范畴,但是在这里Mahout主要注重协同过滤/推荐翻译 2015-12-30 22:02:12 · 1620 阅读 · 0 评论 -
hbase java API跟新数据,创建表
package hbaseCURD;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.client.Get;import org.apache原创 2015-05-31 19:49:03 · 1324 阅读 · 0 评论 -
mahout in Action2.2-给用户推荐图书(2)-分析对用户推荐书目的结果
2.2.3 Analyzing the output在之前的程序运行结果中我们得到的结果输出是:RecommendedItem [item:104, value:4.257081]程序要求选择一个最适合的,排名最考前的书目给用户1,结果给出来了,就是104,原因是因为评分达到了4.25.这个是所有书目里面分数最高的了。我们再次结合之前的图来进行分析:原创 2015-12-19 09:12:37 · 1436 阅读 · 1 评论 -
mahout in Action2.2-给用户推荐图书(1)-直观分析和代码
This chapter covers What recommenders are, within Mahout A first look at a recommender in action Evaluating the accuracy and quality ofrecommender engines Evaluating a recommender on a r原创 2015-12-19 09:12:07 · 1483 阅读 · 1 评论 -
hadoop--谷歌三大论文
学习大数据必读的三个论文:http://pan.baidu.com/s/1c0FA69U在我的网盘,大家可以去下载Google File System中文版 Google Bigtable中文版 Google MapReduce中文版The Google File System 中文版 摘要 我们设计并实现了Google文件系统,一个面向分布式数据密集型应用的、可伸缩的分布式文件系统。虽然运翻译 2015-04-30 10:03:52 · 3343 阅读 · 0 评论 -
MapReduce 图解流程
Anatomy of a MapReduce JobIn MapReduce, a YARN application is called a Job. The implementation of the Application Master provided by the MapReduce framework is called MRAppMaster.Timeline翻译 2016-01-05 10:23:02 · 2263 阅读 · 2 评论 -
MapReduce中combine、partition、shuffle的作用是什么
http://www.aboutyun.com/thread-8927-1-1.htmlMapreduce在hadoop中是一个比较难以的概念。下面需要用心看,然后自己就能总结出来了。概括:combine和partition都是函数,中间的步骤应该只有shuffle!1.combinecombine分为map端和reduce端,作用是把同一个key的键值对合并在转载 2016-01-04 21:48:40 · 7094 阅读 · 0 评论 -
hadoop再次集群搭建(5)-CDH Install
登录 http://node1.com:7180/.用户名和密码都是admin。启动服务命令是 service cloudera-scm-server start最开始两个页面直接continue,然后会出现下面这个页面: 可以看出我们可以通过Cloudera Manager安装的hadoop组件。 接下来,配置我们要安装的服务器有哪些:原创 2015-12-19 09:07:47 · 1960 阅读 · 1 评论 -
hive sql 查询 Child Error 错误追究
Diagnostic Messages for this Task:java.lang.Throwable: Child Error at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:271)Caused by: java.io.IOException: Task process exit with no原创 2015-07-04 16:31:49 · 998 阅读 · 0 评论 -
hadoop再次集群搭建(3)-如何选择相应的hadoop版本
之前接触过很多很多hadoop版本,现在重新搭建平台,面临选择哪个版本的问题。当我们决定是否采用某个软件用于开源环境时,通常需要考虑以下几个因素:(1)是否为开源软件,即是否免费。(2) 是否有稳定版,这个一般软件官方网站会给出说明。(3) 是否经实践验证,这个可通过检查是否有一些大点的公司已经在生产环境中使用知道。(4) 是否有强大的社区支持,当出现一个问题时,能原创 2015-12-17 13:03:45 · 1343 阅读 · 1 评论 -
hadoop再次集群搭建(1)-安装系统
从8月份到现在12月份,中间有四个月的时间没有学习hadoop系统了。其实适应新的环境,到现在一切尘埃落定,就应该静下心来,好好学习一下hadoop以及我之前很想学习的mahout。个人对算法比较感兴趣,不希望自己能够研究出点啥,只求我自己能够明白和运用牛人们已经研究出来的东西。所以,今天在搭建了三台centos机器,准备搭建hadoop平台。系统系统版本:CentOS rel原创 2015-12-17 12:42:03 · 1301 阅读 · 1 评论 -
zookeeper.out: Permission denied错误解决方法
[hadoop@node1 root]$ zkServer.sh start JMX enabled by default Using config: /opt/software/zookeeper-3.4.6/bin/../conf/zoo.cfg Starting zookeeper … /opt/software/zookeeper-3.4.6/bin/zkServer.sh: line原创 2015-07-06 10:29:02 · 7213 阅读 · 1 评论 -
hadoop再次集群搭建(4)-Cloudera Manager Installation
决定选择 Cloudera Manager 进行安装,阅读官方文档,掌握大概脉络。 Cloudera Manager在集群已经实现ssh免秘钥登录,能够访问网络资源和本地资源的情况下,可以自动安装和配置CDH(Cloudera distributed hadoop),以及管理在这个集群上面的服务。 Cloudera Manager安装软件包括原创 2015-12-17 17:46:31 · 1756 阅读 · 1 评论 -
MapReduce 图解流程超详细解答(1)-【map阶段】
在MapReduce中,一个YARN 应用被称作一个job, MapReduce 框架提供的应用,master的一个实现被称作MRAppMasterMapReduce Job的时间线MapReduce Job 运行的时间线:Map Phase:若干 Map Tasks 被执行Reduce Phase: 若干Reduce Tasks 被执行reduce原创 2016-01-05 22:16:43 · 6644 阅读 · 0 评论 -
MapReduce 图解流程超详细解答(2)-【map阶段】
接上一篇讲解:http://blog.csdn.net/mrcharles/article/details/50465626有多少个reduce任务呢?一个job的ReduceTasks 的数量是通过配置mapreduce.job.reduces参数设置的一个输出元组的分割指数是多少?输出元组的分割指数指的是分区的指数。在 Map原创 2016-01-06 20:46:10 · 2524 阅读 · 0 评论 -
Hadoop Serialization -- hadoop序列化详解 (3)【ObjectWritable,集合Writable以及自定义的Writable】
前瞻:本文介绍ObjectWritable,集合Writable以及自定义的Writable TextPair回顾:前面了解到hadoop本身支持java的基本类型的序列化,并且提供相应的包装实现类:这并不是包含了所有的java数据类型,比如我们要序列化的对象是Object类型的,或者是常用的集合类型list,map那该怎么办呢?别怕,我们hadoop也提供相应原创 2015-12-26 18:40:48 · 3171 阅读 · 1 评论 -
Hadoop IO基于文件的数据结构详解【列式和行式数据结构的存储策略】
对于某些应用,需要一个特殊的数据结构来存储数据。针对运行基于MapReduce的进程,将每个二进制数据块放入它自己的文件,这样做不易扩展, 所以Hadoop为此开发了一系列高级容器。我们可以想象一下,mapreduce遇到的文件可能是日志文件,文本文件等等,mapreduce 拆分之后变成一条条数据记录,会转化为IntWritable,Text等等可以序列化的对象,然后序列化输出到网络或者硬盘,每一种类型的输出都会放入自己的文件,这样是很不经济的,因为我们期望的是所有的数据可以用同一个容器就最好了,那么ha原创 2015-12-27 19:55:08 · 2487 阅读 · 0 评论 -
Hadoop RPC
Remote Procedure Call 远程方法调用。不需要了解网络细节,某一程序即可使用该协议请求来自网络内另一台及其程序的服务。它是一个 Client/Server 的结构,提供服务的一方称为Server,消费服务的一方称为Client。Hadoop 底层的交互都是通过 rpc 进行的。例 如:datanode 和 namenode、tasktracker 和 jobtracker转载 2016-01-11 09:10:04 · 1872 阅读 · 1 评论 -
MapReduce深入理解输入和输出格式(1)-输入分片与记录
一个输入分片( in put split)就是能够被单个map 操作 处理的输入块. 每一个map 操作只处理一个输入分片,并且一个一个地处理每条记录,也就是一个键/值对。输入分片和记录都是逻辑上的,并不必要将它们对应到文件(虽然一般情况下都是这样的)。在数据库中. 一个输入分片可以是一个表 的若干行,而一条记录就是这若干行中的一行(事实上DBlnputFormat 就是这么的,它是一原创 2016-01-07 22:10:38 · 2524 阅读 · 0 评论 -
MapReduce深入理解输入和输出格式(2)-输入和输出完全总结
MapReduce太高深,性能也值得考虑,大家感兴趣的还是看看spark比较好。FileInputFormat类FileInputFormat是所有使用文件为数据源的InputFormat实现的基类,它提供了两个功能:一个定义哪些文件包含在一个作业的输入中;一个为输入文件生成分片的实现,把分片割成记录的作业由其子类来完成。下图为InputFormat类的层次原创 2016-01-08 20:44:50 · 6613 阅读 · 0 评论 -
Hadoop编码解码【压缩解压缩】机制详解(1)
想想一下,当你需要处理500TB的数据的时候,你最先要做的是存储下来。你是选择源文件存储呢?还是处理压缩再存储?很显然,压缩编码处理是必须的。一段刚刚捕获的60分钟原始视屏可能达到2G,经过压缩处理可以减至500MB左右,一张单反照片可能有5MB,经过压缩之后只有400KB,而质量不会发生明显的损失。hadoop面临的情况也是一样的,大量的数据需要存储在磁盘或者内存中,进行压缩是一种经原创 2015-12-22 21:13:14 · 6530 阅读 · 4 评论 -
MapReduce 的类型与格式【编写最简单的mapreduce】(1)
hadoop mapreduce 中的map 和reduce 函数遵循以下的形式map: (K1, V1) → list(K2, V2)reduce: (K2, list(V2)) → list(K3, V3)可以从源代码中看出为什么是这样的类型:map: (K1, V1) → list(K2, V2)reduce: (K2, list(V2)) → list(K3,原创 2016-01-04 21:43:38 · 2311 阅读 · 0 评论 -
Hadoop构架概览
hadoop是一个开源的软件框架,是一个利用商业硬件处理和存储大型数据的软件。从下到上主要有五个主要的组成部分:集群,是一套主机(节点)组成的。节点可以以机架划分。这个是硬件级别的构架.YARN构架 (目前为止的另外一个资源管理器)是一个负责提供计应用执行的时候需要的计算资源的框架(也就是cpu,内存等等). 两个重要的部分如下::一个资源管理器 (每个集群一个)原创 2016-01-07 20:56:47 · 1532 阅读 · 0 评论 -
hadoop mapreduce 计算平均气温的代码,绝对原创
1901 461902 211903 481904 331905 431906 471907 311908 281909 261910 351911 301912 161913 291914 291915 51916 211917 221918 311919原创 2015-05-23 16:25:13 · 2715 阅读 · 0 评论 -
hadoop自己写的最高温度程序源码
package com.teset;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;i原创 2015-05-10 16:10:41 · 1217 阅读 · 0 评论 -
NCDC 天气数据的预处理
“Hadoop: The Definitive Guild” 这本书的例子都是使用NCDC 天气数据的,但由于书的出版和现在已经有一段时间了,NCDC现在提供的原始数据结构已经有了一些变化,本文主要描述书中附表C中的GSOD数据的预处理过程。GSOD的数据可以在NCDC官网找到:其实就是如下FTP信息:ftp://ftp.ncdc.noaa.gov/pub/da原创 2015-12-31 16:20:14 · 10309 阅读 · 8 评论 -
mahout in Action2.2-聚类介绍-K-means聚类算法
聚类介绍本章包括 1 实战操作了解聚类 2.了解相似性概念 3 使用mahout运行一个简单的聚类实例 4.用于聚类的各种不同的距离测算方法 作为人类,我们倾向于与志同道合的人合作—“鸟的羽毛聚集在一起。我们能够发现重复的模式通过联系在我们的记忆中的我们看到的、听到的、问道的、尝到的东 西。 例如,相比较盐 ,糖能够是我们更原创 2016-01-18 12:46:21 · 2774 阅读 · 0 评论 -
mahout in Action2.2-给用户推荐图书(3)-评价推荐系统
推荐系统引擎是一个工具,一种回答问题的手段,“对用户来讲什么是最好的推荐?”,在研究回答的前先研究一下这个问题。一个好的推荐的准确含义是什么?如何知道推荐系统是如何生成推荐的?下面的章节将探索推荐系统的评价,在寻找特定推荐系统时,这将是一个有用的工具。最好的推荐系统是心理学的范畴,有人在你做事情之前知道确切的知道你还没有看过的、或者没有任何现象说明你喜欢的一些item,以及你对这些item原创 2016-01-18 12:30:38 · 2447 阅读 · 0 评论 -
hadoop集群ambari搭建(1)之ambari-server安装
Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。原创 2015-12-29 21:48:56 · 4785 阅读 · 0 评论 -
hadoop集群ambari搭建(2)之制作hadoop本地源
准备好源资源服务器,我使用之前的一台node4,配置都是1GB内存20GB存储集群最好的安装方式一定是通过本地源的,如果是公共源,那么网络将会严重影响我们的安装进度。所以制作本地源是每一个大数据工作者的必会技能。1:制作ambari(1.4.1.25)本地源下载ambari repo[root@node4 ~]# wget http://public-repo-1.hortonwo原创 2015-12-30 10:22:00 · 3756 阅读 · 0 评论 -
hadoop-hive查询ncdc天气数据实例
使用hive查询ncdc天气数据在hive中将ncdc天气数据导入,然后执行查询shell,可以让hive自动生成mapredjob,快速去的想要的数据结果。1. 在hive中创建ncdc表,这个表用来存放ncdc的数据create table ncdc (year string,month string,data strin原创 2015-06-16 09:40:24 · 2042 阅读 · 0 评论 -
hadoop 轻松时刻 hdfs漫画
hadoop漫画:原创 2015-12-28 20:30:32 · 2614 阅读 · 0 评论 -
Hadoop Serialization -- hadoop序列化详解 (2)【Text,BytesWritable,NullWritable】
回顾:回顾序列化,其实原书的结构很清晰,我截图给出书中的章节结构:序列化最主要的,最底层的是实现writable接口,wiritable规定读和写的游戏规则 (void write(DataOutput out) throws IOException; void readFields(DataInput in) throws IOException;)。为了适应hadoop的mapr原创 2015-12-24 21:20:57 · 3541 阅读 · 1 评论 -
Hadoop Serialization hadoop序列化详解(最新版) (1)【java和hadoop序列化比较和writable接口】
初学java的人肯定对java序列化记忆犹新。最开始很多人并不会一下子理解序列化的意义所在。这样子是因为很多人还是对java最底层的特性不是特别理解,当你经验丰富,对java理解更加深刻之后,你就会发现序列化这种东西的精髓。谈hadoop序列化之前,我们再来回顾一下java的序列化,也是最底层的序列化:在面向对象程序设计中,类是个很重要的概念。所谓“类”,可以将它想像成建筑原创 2015-12-23 21:45:58 · 2556 阅读 · 2 评论 -
Hadoop IO 特性详解(2)【文件校验】
(本文引用了microheart,ggjucheng的一些资料,在此感谢。charles觉得知识无价,开源共享无价)这一次我们接着分析文件IO校验的相关代码,看看最底层是如何实现这种大数据集的文件校验的,不得不说设计这个系统的程序员是世界上最具有智慧的一群人,面对复杂难解的问题总是可以找到很好的解决方法。其实对于文件校验这件事情,hadoop为什么重要上一篇文章讲过几个方面,提到的bit原创 2015-12-22 10:49:18 · 1902 阅读 · 1 评论 -
附录C 准备NCDC气象数据(加解释)
附录C 准备NCDC气象数据这里首先简要介绍如何准备原始气象数据文件,以便我们能用Hadoop对它们进行分析。如果打算得到一份数据副本供Hadoop处理,可按照本书配套网站(网址为http://www.hadoopbook.com/)给出的指导进行操作。接下来,首先说明如何处理原始的气象文件。原始数据实际是一组经过bzip2压缩的tar文件。每个年份的数据单独放在一个文件中。部分文原创 2015-12-31 18:34:31 · 4487 阅读 · 0 评论 -
新增的Java MapReduce API
http://book.51cto.com/art/201106/269647.htmHadoop的版本0.20.0包含有一个新的 Java MapReduce API,有时也称为"上下文对象"(context object),旨在使API在今后更容易扩展。新的API 在类型上不兼容先前的API,所以,需要重写以前的应用程序才能使新的API发挥作用。新增的API 和旧的API转载 2015-12-31 21:09:57 · 2293 阅读 · 0 评论 -
hive 连接查询sql对比效率
准备4个表从mysql 导出excel 转换为txt创建hive 表的导入文件create table bdqn_student( sno int, sname string, sbirthdate string, sgender string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’ STORED AS TEXTFILE;create原创 2015-07-06 10:34:20 · 2153 阅读 · 0 评论 -
Selenium浏览器自动化测试使用(1)
Selenium - 介绍Selenium是一个开源的和便携式的自动化软件测试工具,用于测试Web应用程序有能力在不同的浏览器和操作系统运行。Selenium真的不是一个单一的工具,而是一套工具,帮助测试者更有效地基于Web的应用程序的自动化。现在让我们了解selenium套件和使用这些工具。我们将着眼于以下工具功能:工具描述Selenium IDESe原创 2016-01-19 10:22:56 · 4783 阅读 · 0 评论 -
hive 集群初探,查询比较
在slave3安装MySQL作为hive 的matastore[root@slave3 hadoop]# yum search mysql[root@slave3 hadoop]# yum install mysql-server.x86_64成功安装MySQLInstalled: mysql-server.x86_64 0:5.1.73-5.el6_6原创 2015-07-06 10:33:30 · 1790 阅读 · 0 评论