自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

MrCharles在CSDN

随便写写

  • 博客(22)
  • 资源 (10)
  • 收藏
  • 关注

转载 新增的Java MapReduce API

http://book.51cto.com/art/201106/269647.htmHadoop的版本0.20.0包含有一个新的 Java MapReduce API,有时也称为"上下文对象"(context object),旨在使API在今后更容易扩展。新的API 在类型上不兼容先前的API,所以,需要重写以前的应用程序才能使新的API发挥作用。新增的API 和旧的API

2015-12-31 21:09:57 2293

原创 附录C 准备NCDC气象数据(加解释)

附录C 准备NCDC气象数据这里首先简要介绍如何准备原始气象数据文件,以便我们能用Hadoop对它们进行分析。如果打算得到一份数据副本供Hadoop处理,可按照本书配套网站(网址为http://www.hadoopbook.com/)给出的指导进行操作。接下来,首先说明如何处理原始的气象文件。原始数据实际是一组经过bzip2压缩的tar文件。每个年份的数据单独放在一个文件中。部分文

2015-12-31 18:34:31 4485

原创 NCDC 天气数据的预处理

“Hadoop: The Definitive Guild” 这本书的例子都是使用NCDC 天气数据的,但由于书的出版和现在已经有一段时间了,NCDC现在提供的原始数据结构已经有了一些变化,本文主要描述书中附表C中的GSOD数据的预处理过程。GSOD的数据可以在NCDC官网找到:其实就是如下FTP信息:ftp://ftp.ncdc.noaa.gov/pub/da

2015-12-31 16:20:14 10296 8

翻译 Mahout In Action-第一章:初识Mahout

1. 初识Mahout本章涵盖以下内容:Apache Mahout是什么?现实中推荐系统引擎、聚类、分类概述配置mahout读者可能从本书的标题中猜测到,本书是一本讲解如何将mahout应用于业界的工具书。他有三个特性:一是Mahout是Apache开源的机器学习库。它实现的算法都被归入机器学习或者集体智慧的范畴,但是在这里Mahout主要注重协同过滤/推荐

2015-12-30 22:02:12 1619

原创 hadoop集群ambari搭建(2)之制作hadoop本地源

准备好源资源服务器,我使用之前的一台node4,配置都是1GB内存20GB存储集群最好的安装方式一定是通过本地源的,如果是公共源,那么网络将会严重影响我们的安装进度。所以制作本地源是每一个大数据工作者的必会技能。1:制作ambari(1.4.1.25)本地源下载ambari repo[root@node4 ~]# wget http://public-repo-1.hortonwo

2015-12-30 10:22:00 3755

原创 hadoop集群ambari搭建(1)之ambari-server安装

Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。

2015-12-29 21:48:56 4781

原创 hadoop 轻松时刻 hdfs漫画

hadoop漫画:

2015-12-28 20:30:32 2613

原创 Hadoop IO基于文件的数据结构详解【列式和行式数据结构的存储策略】

对于某些应用,需要一个特殊的数据结构来存储数据。针对运行基于MapReduce的进程,将每个二进制数据块放入它自己的文件,这样做不易扩展, 所以Hadoop为此开发了一系列高级容器。我们可以想象一下,mapreduce遇到的文件可能是日志文件,文本文件等等,mapreduce 拆分之后变成一条条数据记录,会转化为IntWritable,Text等等可以序列化的对象,然后序列化输出到网络或者硬盘,每一种类型的输出都会放入自己的文件,这样是很不经济的,因为我们期望的是所有的数据可以用同一个容器就最好了,那么ha

2015-12-27 19:55:08 2486

原创 Hadoop Serialization -- hadoop序列化详解 (3)【ObjectWritable,集合Writable以及自定义的Writable】

前瞻:本文介绍ObjectWritable,集合Writable以及自定义的Writable TextPair回顾:前面了解到hadoop本身支持java的基本类型的序列化,并且提供相应的包装实现类:这并不是包含了所有的java数据类型,比如我们要序列化的对象是Object类型的,或者是常用的集合类型list,map那该怎么办呢?别怕,我们hadoop也提供相应

2015-12-26 18:40:48 3171 1

原创 Hadoop Serialization -- hadoop序列化详解 (2)【Text,BytesWritable,NullWritable】

回顾:回顾序列化,其实原书的结构很清晰,我截图给出书中的章节结构:序列化最主要的,最底层的是实现writable接口,wiritable规定读和写的游戏规则 (void write(DataOutput out) throws IOException;  void readFields(DataInput in) throws IOException;)。为了适应hadoop的mapr

2015-12-24 21:20:57 3541 1

原创 Hadoop Serialization hadoop序列化详解(最新版) (1)【java和hadoop序列化比较和writable接口】

初学java的人肯定对java序列化记忆犹新。最开始很多人并不会一下子理解序列化的意义所在。这样子是因为很多人还是对java最底层的特性不是特别理解,当你经验丰富,对java理解更加深刻之后,你就会发现序列化这种东西的精髓。谈hadoop序列化之前,我们再来回顾一下java的序列化,也是最底层的序列化:在面向对象程序设计中,类是个很重要的概念。所谓“类”,可以将它想像成建筑

2015-12-23 21:45:58 2555 2

原创 Hadoop编码解码【压缩解压缩】机制详解(1)

想想一下,当你需要处理500TB的数据的时候,你最先要做的是存储下来。你是选择源文件存储呢?还是处理压缩再存储?很显然,压缩编码处理是必须的。一段刚刚捕获的60分钟原始视屏可能达到2G,经过压缩处理可以减至500MB左右,一张单反照片可能有5MB,经过压缩之后只有400KB,而质量不会发生明显的损失。hadoop面临的情况也是一样的,大量的数据需要存储在磁盘或者内存中,进行压缩是一种经

2015-12-22 21:13:14 6528 4

原创 Hadoop IO 特性详解(2)【文件校验】

(本文引用了microheart,ggjucheng的一些资料,在此感谢。charles觉得知识无价,开源共享无价)这一次我们接着分析文件IO校验的相关代码,看看最底层是如何实现这种大数据集的文件校验的,不得不说设计这个系统的程序员是世界上最具有智慧的一群人,面对复杂难解的问题总是可以找到很好的解决方法。其实对于文件校验这件事情,hadoop为什么重要上一篇文章讲过几个方面,提到的bit

2015-12-22 10:49:18 1900 1

原创 spring mvc default-servlet mvc:resources mvc:default-servlet-handler区别

mvc:default-servlet-handler其实就是default-servlet 交由web容器自己处理mvc:resources spring来处理没有被映射的url web容器来处理

2015-12-22 09:23:38 1431

原创 Hadoop IO 特性详解(1)【数据完整性】

本文结合hadoop : the definitive guide精心而作,包含作者的心血,希望可以帮助大家理解一点hdfs的皮毛,足矣。(charles@xingbod.cn)hadoop本身自带原始的数据IO操作,包括数据处理的完整,压缩等等。但是面对大数据集,还是需要特殊考虑,还包含hadoop tools中的一些组件,例如序列化框架,硬盘数据存储结构等。因为

2015-12-21 21:41:17 1876 1

原创 mahout in Action2.2-给用户推荐图书(2)-分析对用户推荐书目的结果

2.2.3 Analyzing the output在之前的程序运行结果中我们得到的结果输出是:RecommendedItem [item:104, value:4.257081]程序要求选择一个最适合的,排名最考前的书目给用户1,结果给出来了,就是104,原因是因为评分达到了4.25.这个是所有书目里面分数最高的了。我们再次结合之前的图来进行分析:

2015-12-19 09:12:37 1436 1

原创 mahout in Action2.2-给用户推荐图书(1)-直观分析和代码

This chapter covers What recommenders are, within Mahout A first look at a recommender in action Evaluating the accuracy and quality ofrecommender engines Evaluating a recommender on a r

2015-12-19 09:12:07 1482 1

原创 hadoop再次集群搭建(5)-CDH Install

登录 http://node1.com:7180/.用户名和密码都是admin。启动服务命令是 service  cloudera-scm-server start最开始两个页面直接continue,然后会出现下面这个页面: 可以看出我们可以通过Cloudera Manager安装的hadoop组件。 接下来,配置我们要安装的服务器有哪些:

2015-12-19 09:07:47 1958 1

原创 hadoop再次集群搭建(4)-Cloudera Manager Installation

决定选择 Cloudera Manager  进行安装,阅读官方文档,掌握大概脉络。         Cloudera Manager在集群已经实现ssh免秘钥登录,能够访问网络资源和本地资源的情况下,可以自动安装和配置CDH(Cloudera  distributed hadoop),以及管理在这个集群上面的服务。       Cloudera Manager安装软件包括

2015-12-17 17:46:31 1753 1

原创 hadoop再次集群搭建(3)-如何选择相应的hadoop版本

之前接触过很多很多hadoop版本,现在重新搭建平台,面临选择哪个版本的问题。当我们决定是否采用某个软件用于开源环境时,通常需要考虑以下几个因素:(1)是否为开源软件,即是否免费。(2) 是否有稳定版,这个一般软件官方网站会给出说明。(3) 是否经实践验证,这个可通过检查是否有一些大点的公司已经在生产环境中使用知道。(4) 是否有强大的社区支持,当出现一个问题时,能

2015-12-17 13:03:45 1341 1

原创 hadoop再次集群搭建(2)-配置免秘钥ssh登录

SSH对于大多程序员都不陌生,目前主流的云服务提供上也是通过SSH来提供链接的安全保障,比如AWS通过使用下载的私钥(private key)实现与EC2实例安全连接、GitHub通过上传的公钥(public key)实现基于git协议(底层使用SSH)远程库管理。SSH(Secure Shell)是一个提供数据通信安全、远程登录、远程指令执行等功能的安全网络协议,由芬兰赫尔辛基大

2015-12-17 12:45:19 1784 1

原创 hadoop再次集群搭建(1)-安装系统

从8月份到现在12月份,中间有四个月的时间没有学习hadoop系统了。其实适应新的环境,到现在一切尘埃落定,就应该静下心来,好好学习一下hadoop以及我之前很想学习的mahout。个人对算法比较感兴趣,不希望自己能够研究出点啥,只求我自己能够明白和运用牛人们已经研究出来的东西。所以,今天在搭建了三台centos机器,准备搭建hadoop平台。系统系统版本:CentOS rel

2015-12-17 12:42:03 1301 1

GPU散热可视化视频动态图

GPU散热可视化视频动态图

2021-03-19

MU-Chinese-Course-Guide-2020_2.pdf

莫纳什大学课程中文简介

2021-03-19

2014_Fall_Happenings.pdf

2014_Fall_Happenings.pdf

2021-03-19

MMdnn.pptx

https://firstai.blog.csdn.net/article/details/108628300 Tutorial教程:使用MMdnn将mxnet模型转换为tensorflow 2.0/keras 模型-全网唯一 PPT 讲解

2020-11-20

MatlabProgressBar-master.zip

MATLAB进度条,

2020-08-29

rtl8821ce-dkms_5.5.2.1-0ubuntu3_18.04.1_all.deb

神舟笔记本电脑网卡驱动,ubuntu。神舟笔记本电脑网卡驱动,ubuntu。神舟笔记本电脑网卡驱动,ubuntu。神舟笔记本电脑网卡驱动,ubuntu

2020-08-29

BecomingHumanCheatSheets.pdf

人工智能,神经网络,机器学习,深度学习和大数据小抄cheat sheets,人工智能,神经网络,机器学习,深度学习和大数据小抄cheat sheets

2019-12-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除