自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (13)
  • 收藏
  • 关注

原创 ubuntu 创建eclipse桌面快捷方式

1、 sudo gedit /usr/share/applications/eclipse.desktop2、向eclipse .desktop中添加以下内容:[Desktop Entry]Encoding=UTF-8Name=eclipseComment=Eclipse IDEExec=/home/hadoop/eclipse/eclipseIcon=/home/had

2014-12-25 22:57:49 611

原创 ubuntu下firefox汉化

今天安装ubuntu 14.04后发现firefox浏览器菜单都变成英文的了。就上网搜解决方法。最后发现如下方法可以汉化Firefox:到如下地址下载zh-ch.xpi就行了。http://ftp.mozilla.org/pub/mozilla.org/firefox/nightly/31.0-candidates/build2/linux-x86_64/xpi/如果是其他版本的可

2014-12-25 22:53:43 686

原创 spark java api 调用时报

java.lang.ClassNotFoundException: JavaWordCount$1在调用spark给的例子中,我们会碰到提交运行的时候会报空指针问题。那时因为spark集群中找不到你制定的class,所以我们需要手动的将包添加到当前的job中。以JavaWordCount为例,修改后的代码如下:/** Licensed to the Apache Soft

2014-12-21 14:52:54 3043

原创 SparkPi例子运行出错解决方法

按照《Spark实战高手之路-第1章》的前四节,搭建完Spark集群及IDEA集成环境后,最后一步是用IDEA集成环境运行SparkPi例子。可就在这最后一步,让我花了三天时间才最终完成。所以,这里详细介绍解决方法,让接下来以《 Spark实战高手之路》入门的后来者少走些弯路。1.在《Spark实战高手之路-第1章(4)》的最后,说要以本地模式过行,则在 Edit Configurations

2014-12-19 22:45:15 3959

转载 Nutch1.7学习笔记8:CrawlDb源代码分析

CrawlDb分析功能:将解析出来的Segment中的URL更新至CrawlDb。update方法update方法的参数包含四个参数:(1) CrawlDb数据库的路径,如crawl/crawldb;(2) Segment的路径,如crawl/segments/20131130101034;(3) 是否规范化的布尔值;(4) 是否进行过滤的布

2014-12-19 10:49:54 528

转载 Nutch1.7学习笔记7:Robots协议处理流程

说明:通常来说,网络爬虫应该遵循网站所描述的robots协议。因此,任何网络爬虫都有关于robots协议部分的处理。分析入口:Robot相关处理的入口位于Fetcher.java的L676,如下所示:BaseRobotRules rules = protocol.getRobotRules(fit.url, fit.datum);Fetcher抓取每个URL之前都会

2014-12-19 10:48:58 590

转载 Nutch1.7学习笔记6:ParseSegment源代码分析

ParseSegment分析ParseSegment类的结构相对要简单一些,与Injector等在内部类中实现map和reduce的方式不同,它直接在类中实现。核心方法解析:map方法的功能包括:(1) 检查URL对应的Content是否抓取成功,如果没有直接返回,否则继续;(2) 检查Content的内容是否为truncated以及parser.s

2014-12-19 10:48:19 567

转载 Nutch1.7学习笔记5:Fetcher源代码分析

Fetcher分析Fetcher是以生产者/消费者模式来处理网页抓取的。QueueFeeder作为生产者,从前面Generator中产生的读取出来,然后加入到FetchItemQueues队列中,加入的时候需处理队列已满等异常情况。FetcherThread作为消费者,不断从队列里取出待抓取的URL进行抓取。Fetcher与Injector和Generator的不同

2014-12-19 10:47:45 512

转载 Nutch1.7学习笔记4:Generator源代码分析

Generator分析Generator的功能主要是将注入的URL按照一定的规则生产一系列CrawlDb的子集。这里的规则包括:抓取时间是否符合要求,是否符合设定过滤规则,根据页面评分进行排序,根据URL的host/ip/domain划分子集,是否超过设定的generate最大值(就是Crawl命令中的topN值)等。generate方法主要包括三个job的执行:第一个jo

2014-12-19 10:47:08 410

转载 Nutch1.7学习笔记3:Injector源代码分析

Injector的主要功能Injector的主要功能是将urls目录下的文本文件中的URL地址注入到CrawlDb中。Injector类基本构成(1) 三个主成员变量nutchScoreMDNamenutchFetchIntervalMDNamenutchFixedFetchIntervalMDName(2) 两个内部静态类Injec

2014-12-19 10:46:31 554

转载 Nutch1.7学习笔记2:基本工作流程分析

说明:本文的工作流程分析基于1.x的最新版Nutch1.7。找到分析源头分析软件的基本工作流程,通常都是从它的运行命令开始。在前面的一文 (地址:http://blog.csdn.net/gobitan/article/details/13916981)中提到了运行Nutch的命令为$bin/nutch crawl urls -dir crawl -depth 3 -topN

2014-12-19 10:45:44 448

转载 Nutch1.7学习笔记1:基本环境搭建及使用

说明:Nutch有两个主版本1.x和2.x,它们的主要区别是2.x引入了Gora作为存储抽象层,从而支持各种NoSQL数据库,如HBase,Cassandra等。本文是以1.x的最新版Nutch1.7 (发布于2013年6月25日)为例。环境准备:一台Ubuntu Linux服务器,可以装在VMware虚拟机中。下载Nutch1.7版本的二进制包,地址:http://www.a

2014-12-19 10:44:33 582

转载 Nutch1.8+Hadoop1.2+Solr4.3分布式集群配置

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。当然在百度百科上这种方法在Nutch1.2之后,已经不再适合这样描述Nutch了,因为在1.2版本之后,Nutch专注的只是爬取数据,而全文检索的部分彻底的交给Lucene和Solr,ES来做了,当然因为他们都是近亲关系,所以Nutch抓取完后的数据,非常easy的就能生成全文索

2014-12-19 10:18:42 1063

转载 nutch 1.7 导入 eclipse 其他版本类似

前提: jdk   eclipse  等等安装就略过了。    下载  apache-nutch-1.7-src.zip 包  和 apache-nutch-1.7-bin.zip 包一、1、创建一个Java Project 。2、复制 nutch-1.7-src 包下 java 包里的org整个包放在 项目的src包下。3、复制 nutch-1.7-bin包里

2014-12-18 00:44:53 520

转载 Hadoop如何计算map数和reduce数

Hadoop在运行一个mapreduce job之前,需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数,当一个job提交时,jobclient首先分析job被拆分的split数量,然后吧job.split文件放置在HDFS中,一个job的MapTask数量就等于split的个数。job.split中包含split的个数由FileInputF

2014-12-15 00:34:24 563

转载 hadoop作业调优参数整理及原理

1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都会对应存在一个内存buffer(MapOut

2014-12-15 00:33:16 502

原创 HDFS中使用append出错

1.文件append的问题 hadoop的版本1.0.4以后,API中已经有了追加写入的功能,但不建议在生产环境中使用,原因如下:Does HDFS allow appends to files? This is currently set to false because there are bugs in the "append code" and is not supported i

2014-12-10 13:32:21 3869

原创 Hadoop作业提交的方法

最近几天一直在纠结hadoop作业提交的问题,对于命令行提交作业以及在集群中提交作业这里不再赘述,不会就去Google吧!    我们在客户机提交作业的时候总是发现出错,eclipse总是报jar file not found 的错误!我们知道客户端提交任务的时候,使用方法job.setWaitForCompletion(true)的时候,这个方法会调用job的submit()方法,sub

2014-12-02 19:36:11 622

xfire-all-1.2.6 xfire所需的全部包

xfire-all-1.2.6 xfire所需的全部包

2017-03-22

jdk6-64位版本

jdk1.6 64位版本jdk 64bit 亲测可用!

2017-01-10

extjs4.0 sdk.jsb3 修改后的文件

extjs4.0 sdk.jsb3 修改后的文件

2015-05-20

破解spket 1.6.23

破解 spket 1.6.23亲测可用~

2015-05-20

Hadoop-core-1.0.4

hadoop-core-1.0.4.jar

2014-12-18

网络爬虫程序spider

网络爬虫,爬取指定的url,以及设定爬取深度。爬取的结果是网页的源码文件和图片。

2014-12-17

Java实现给定日期计算星期几

Java实现给定日期计算星期几。通过给定****-**-**的格式来计算星期几。

2013-12-07

PQmagic PQ魔术师

PQmagic PQ分区魔术师 windows下最好用的硬盘工具。 需要分割硬盘空间大小,或者合并空间的可以下载使用。

2013-12-07

hbase-0.94.13

hbase-0.94.13,适合hadoop1.2.1版本。

2013-11-29

hadoop-eclipse-plugin-1.2.1

hadoop在eclipse下的插件,下载此插件后放在eclipse/dropins下,重启eclipse,进入配置界面。此插件在hadoop-1.2.1和eclipse3.7.2上测试成功。ubuntu12.04下的最佳搭档。

2013-10-24

hadoop 权威指南(第三版)英文版

hadoop权威指南第三版(英文版)。 Foreword . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiii Preface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xv 1. Meet Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Data! Data Storage and Analysis Comparison with Other Systems RDBMS Grid Computing Volunteer Computing A Brief History of Hadoop Apache Hadoop and the Hadoop Ecosystem Hadoop Releases What’s Covered in this Book Compatibility 2. MapReduce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 A Weather Dataset Data Format Analyzing the Data with Unix Tools Analyzing the Data with Hadoop Map and Reduce Java MapReduce Scaling Out Data Flow Combiner Functions Running a Distributed MapReduce Job Hadoop Streaming Ruby Python iii Hadoop Pipes Compiling and Running 3. The Hadoop Distributed Filesystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 The Design of HDFS HDFS Concepts Blocks Namenodes and Datanodes HDFS Federation HDFS High-Availability The Command-Line Interface Basic Filesystem Operations Hadoop Filesystems Interfaces The Java Interface Reading Data from a Hadoop URL Reading Data Using the FileSystem API Writing Data Directories Querying the Filesystem Deleting Data Data Flow Anatomy of a File Read Anatomy of a File Write Coherency Model Parallel Copying with distcp Keeping an HDFS Cluster Balanced Hadoop Archives Using Hadoop Archives Limitations 4. Hadoop I/O . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 Data Integrity Data Integrity in HDFS LocalFileSystem ChecksumFileSystem Compression Codecs Compression and Input Splits Using Compression in MapReduce Serialization The Writable Interface Writable Classes iv | Table of Contents Implementing a Custom Writable Serialization Frameworks Avro File-Based Data Structures SequenceFile MapFile 5. Developing a MapReduce Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 The Configuration API Combining Resources Variable Expansion Configuring the Development Environment Managing Configuration GenericOptionsParser, Tool, and ToolRunner Writing a Unit Test Mapper Reducer Running Locally on Test Data Running a Job in a Local Job Runner Testing the Driver Running on a Cluster Packaging Launching a Job The MapReduce Web UI Retrieving the Results Debugging a Job Hadoop Logs Remote Debugging Tuning a Job Profiling Tasks MapReduce Workflows Decomposing a Problem into MapReduce Jobs JobControl Apache Oozie 6. How MapReduce Works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 Anatomy of a MapReduce Job Run Classic MapReduce (MapReduce 1) YARN (MapReduce 2) Failures Failures in Classic MapReduce Failures in YARN Job Scheduling Table of Contents | v The Fair Scheduler The Capacity Scheduler Shuffle and Sort The Map Side The Reduce Side Configuration Tuning Task Execution The Task Execution Environment Speculative Execution Output Committers Task JVM Reuse Skipping Bad Records 7. MapReduce Types and Formats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 MapReduce Types The Default MapReduce Job Input Formats Input Splits and Records Text Input Binary Input Multiple Inputs Database Input (and Output) Output Formats Text Output Binary Output Multiple Outputs Lazy Output Database Output

2013-10-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除