自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (6)
  • 收藏
  • 关注

原创 《从零开始学习Hadoop》下载

大部分文章将在csdn,豆瓣,新浪博客同步更新,网址分别如下:csdn主页:http://blog.csdn.net/lizhe_dashuju豆瓣主页http://www.douban.com/people/79049984/新浪博客http://blog.sina.com.cn/u/2436144507敬请关注,谢谢!

2013-10-29 11:58:47 4368 4

原创 从零开始学习Hadoop--后记

未来的趋势是什么在越来越多的任务上,计算机比人类做得更快更强成本更低。麻省理工的两位经济学家写了一本书叫《与机器竞赛》http://www.geekonomics10000.com/639,书中说,以人工智能为代表的计算机技术可以完全代替司机驾驶汽车,可以在商业上代替人类翻译员,IBM的Watson计算机已经在传统电视竞答节目上击败人类选手,苹果公司的Siri语言助手对人类语言可以理解得很好。

2013-10-29 09:56:46 2385 1

原创 从零开始学习Hadoop--推荐书目

关于Hadoop的书非常多,不能一一列举,每本书都有可取之处。我只列一下自己看过的书,略带一点书评。1.《Java2核心技术》,这套书有两卷。学习Java的话,搞定这两本就差不多了,足以应对Hadoop的常规开发。2.《Hadoop权威指南》,这本书英文版已经出到第3版了,中文版是第2版。这本书内容比较全面。缺点是废话太多,书太厚,例子复杂,代码没写全,有些地方的代码是低版

2013-10-29 09:56:00 6140

原创 从零开始学习Hadoop--第7章 Hadoop MapReduce的运行机制

这一章不会有源代码,主要是分析Hadoop的运行机制。1.一个Hadoop集群,有5种节点。1.1NameNode,有且仅有一个,负责管理HDFS文件系统。1.2DataNode,至少有一个,通常有很多个。具体地说,每台负责做集群计算的的计算机都是一个DataNode。1.3SecondaryNameNode,有且仅有一个,只辅助处理NameNode,不做其他任务。1.

2013-10-29 09:55:13 1914

原创 从零开始学习Hadoop--第6章 MapReduce的输入输出

这一章都是文字叙述,不需要写源代码了。一般情况下,只需要记住这些东西就可以了。Hadoop处理大数据。大数据以文件的形式存储在HDFS。大文件被划分成文件块存贮,每个文件块有固定的大小,通常是64M,或者128M,或者255M。我们在第2章写了一个WordCount的MapReduce程序,最关键部分是Mapper和Reducer。在做MapReuc

2013-10-29 09:54:20 2278

原创 从零开始学习Hadoop--第5章 压缩

1. 压缩从头说一般来说,数据存在冗余度。数据包括图像文本视频音频。减少数据的冗余度,让数据的体积更小一点,这叫压缩。从压缩后的数据,重新解析出原始数据,叫解压缩。压缩无处不在。压缩的算法非常多。对Hadoop来说,有两个地方需要用到压缩:其一,在HDFS上存储数据文件,压缩之后数据体积更小,有利存储;其二,集群间的通讯需要压缩数据,这样可以提高网络带宽的利用率。如

2013-10-29 09:53:15 2453

原创 从零开始学习Hadoop--第4章 序列化

1. 序列化从头说在面向对象程序设计中,类是个很重要的概念。所谓“类”,可以将它想像成建筑图纸,而对象就是根据图纸盖的大楼。类,规定了对象的一切。根据建筑图纸造房子,盖出来的就是大楼,等同于将类进行实例化,得到的就是对象。一开始,在源代码里,类的定义是明确的,但对象的行为有些地方是明确的,有些地方是不明确的。对象里不明确地方,是因为对象在运行的时候,需要处理无法预测的事情,诸如用户

2013-10-29 09:52:10 2066

原创 从零开始学习Hadoop--第3章 HDFS分布式文件系统

1.文件系统从头说文件系统的作用就是永久存储数据。计算机可以存储数据的地方是内存,硬盘,优盘,SD卡等等。如果计算机断电关机,存放在内存里的数据就没有了,而存放在硬盘优盘SD卡这些上的数据会仍然存在。硬盘优盘SD卡上的数据是以文件的形式存在,文件系统就是文件的组织和处理。总之,凡是断电之后不会消失的数据,就必须由文件系统存储和管理。从用户的角度来说,文件系统需要提供文件的创建,删除

2013-10-29 09:51:05 2932 2

原创 从零开始学习Hadoop--第2章 第一个MapReduce程序

1.Hadoop从头说1.1 Google是一家做搜索的公司做搜索是技术难度很高的活。首先要存储很多的数据,要把全球的大部分网页都抓下来,可想而知存储量有多大。然后,要能快速检索网页,用户输入几个关键词找资料,越快越好,最好在一秒之内出结果。如果全球每秒有上亿个用户在检索,只有一两秒的检索时间,要在全球的网页里找到最合适的检索结果,难度很大。Google用三个最重要的核心技术解决上述问

2013-10-29 09:49:33 6290 1

原创 从零开始学习Hadoop--第1章 Hadoop的安装

Hadoop的安装比较繁琐,有如下几个原因:其一,Hadoop有非常多的版本;其二,官方文档不尽详细,有时候更新脱节,Hadoop发展的太快了;其三,网上流传的各种文档,或者是根据某些需求定制,或者加入了不必须要的步骤,或者加入容易令人误解的步骤。其实安装是很重要的步骤,只有安装好了,才能谈及下一步。在本书撰写的时候,选用Hadoop的stable版安装。笔者的登录用户名是bria

2013-10-29 09:44:42 7944 6

原创 从零开始学习Hadoop--前言

Hadoop是最著名使用最广泛的分布式大数据处理框架,它是用Java开发的。这本书有一个明确的目标:只要有一台能上网的计算机,就可以让读者在最短的时间内,学会Hadoop的初级开发。所以,这本书只讲干货,也就是必须要知道的Hadoop的最核心知识点,包括如何搭建Hadoop,如何写代码,如何查API。对于更多细节问题,书后会列一个书目给大家参考,这些书已经讲得很好了,不需要在这里饶舌浪

2013-10-29 09:43:25 8424 4

评分卡模型理论推导-草稿

评分卡模型理论推导,草稿版。

2018-12-20

史上最直白的lda教程

史上最直白的lda教程的pdf文档,0积分下载。求rp。

2015-12-16

史上最直白的pca教程

史上最直白的pca教程,整理文档,一个完整的pdf文件。

2015-11-27

史上最直白的logistic regression教程整理稿

史上最直白的logistic regression教程整理稿。讲4篇博文整理成一个完整的pdf文档。且修改成学术语境。

2015-11-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除