- 博客(18)
- 资源 (13)
- 收藏
- 关注
原创 ubuntu 创建eclipse桌面快捷方式
1、 sudo gedit /usr/share/applications/eclipse.desktop2、向eclipse .desktop中添加以下内容:[Desktop Entry]Encoding=UTF-8Name=eclipseComment=Eclipse IDEExec=/home/hadoop/eclipse/eclipseIcon=/home/had
2014-12-25 22:57:49 611
原创 ubuntu下firefox汉化
今天安装ubuntu 14.04后发现firefox浏览器菜单都变成英文的了。就上网搜解决方法。最后发现如下方法可以汉化Firefox:到如下地址下载zh-ch.xpi就行了。http://ftp.mozilla.org/pub/mozilla.org/firefox/nightly/31.0-candidates/build2/linux-x86_64/xpi/如果是其他版本的可
2014-12-25 22:53:43 686
原创 spark java api 调用时报
java.lang.ClassNotFoundException: JavaWordCount$1在调用spark给的例子中,我们会碰到提交运行的时候会报空指针问题。那时因为spark集群中找不到你制定的class,所以我们需要手动的将包添加到当前的job中。以JavaWordCount为例,修改后的代码如下:/** Licensed to the Apache Soft
2014-12-21 14:52:54 3043
原创 SparkPi例子运行出错解决方法
按照《Spark实战高手之路-第1章》的前四节,搭建完Spark集群及IDEA集成环境后,最后一步是用IDEA集成环境运行SparkPi例子。可就在这最后一步,让我花了三天时间才最终完成。所以,这里详细介绍解决方法,让接下来以《 Spark实战高手之路》入门的后来者少走些弯路。1.在《Spark实战高手之路-第1章(4)》的最后,说要以本地模式过行,则在 Edit Configurations
2014-12-19 22:45:15 3959
转载 Nutch1.7学习笔记8:CrawlDb源代码分析
CrawlDb分析功能:将解析出来的Segment中的URL更新至CrawlDb。update方法update方法的参数包含四个参数:(1) CrawlDb数据库的路径,如crawl/crawldb;(2) Segment的路径,如crawl/segments/20131130101034;(3) 是否规范化的布尔值;(4) 是否进行过滤的布
2014-12-19 10:49:54 528
转载 Nutch1.7学习笔记7:Robots协议处理流程
说明:通常来说,网络爬虫应该遵循网站所描述的robots协议。因此,任何网络爬虫都有关于robots协议部分的处理。分析入口:Robot相关处理的入口位于Fetcher.java的L676,如下所示:BaseRobotRules rules = protocol.getRobotRules(fit.url, fit.datum);Fetcher抓取每个URL之前都会
2014-12-19 10:48:58 590
转载 Nutch1.7学习笔记6:ParseSegment源代码分析
ParseSegment分析ParseSegment类的结构相对要简单一些,与Injector等在内部类中实现map和reduce的方式不同,它直接在类中实现。核心方法解析:map方法的功能包括:(1) 检查URL对应的Content是否抓取成功,如果没有直接返回,否则继续;(2) 检查Content的内容是否为truncated以及parser.s
2014-12-19 10:48:19 567
转载 Nutch1.7学习笔记5:Fetcher源代码分析
Fetcher分析Fetcher是以生产者/消费者模式来处理网页抓取的。QueueFeeder作为生产者,从前面Generator中产生的读取出来,然后加入到FetchItemQueues队列中,加入的时候需处理队列已满等异常情况。FetcherThread作为消费者,不断从队列里取出待抓取的URL进行抓取。Fetcher与Injector和Generator的不同
2014-12-19 10:47:45 512
转载 Nutch1.7学习笔记4:Generator源代码分析
Generator分析Generator的功能主要是将注入的URL按照一定的规则生产一系列CrawlDb的子集。这里的规则包括:抓取时间是否符合要求,是否符合设定过滤规则,根据页面评分进行排序,根据URL的host/ip/domain划分子集,是否超过设定的generate最大值(就是Crawl命令中的topN值)等。generate方法主要包括三个job的执行:第一个jo
2014-12-19 10:47:08 410
转载 Nutch1.7学习笔记3:Injector源代码分析
Injector的主要功能Injector的主要功能是将urls目录下的文本文件中的URL地址注入到CrawlDb中。Injector类基本构成(1) 三个主成员变量nutchScoreMDNamenutchFetchIntervalMDNamenutchFixedFetchIntervalMDName(2) 两个内部静态类Injec
2014-12-19 10:46:31 554
转载 Nutch1.7学习笔记2:基本工作流程分析
说明:本文的工作流程分析基于1.x的最新版Nutch1.7。找到分析源头分析软件的基本工作流程,通常都是从它的运行命令开始。在前面的一文 (地址:http://blog.csdn.net/gobitan/article/details/13916981)中提到了运行Nutch的命令为$bin/nutch crawl urls -dir crawl -depth 3 -topN
2014-12-19 10:45:44 448
转载 Nutch1.7学习笔记1:基本环境搭建及使用
说明:Nutch有两个主版本1.x和2.x,它们的主要区别是2.x引入了Gora作为存储抽象层,从而支持各种NoSQL数据库,如HBase,Cassandra等。本文是以1.x的最新版Nutch1.7 (发布于2013年6月25日)为例。环境准备:一台Ubuntu Linux服务器,可以装在VMware虚拟机中。下载Nutch1.7版本的二进制包,地址:http://www.a
2014-12-19 10:44:33 582
转载 Nutch1.8+Hadoop1.2+Solr4.3分布式集群配置
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。当然在百度百科上这种方法在Nutch1.2之后,已经不再适合这样描述Nutch了,因为在1.2版本之后,Nutch专注的只是爬取数据,而全文检索的部分彻底的交给Lucene和Solr,ES来做了,当然因为他们都是近亲关系,所以Nutch抓取完后的数据,非常easy的就能生成全文索
2014-12-19 10:18:42 1063
转载 nutch 1.7 导入 eclipse 其他版本类似
前提: jdk eclipse 等等安装就略过了。 下载 apache-nutch-1.7-src.zip 包 和 apache-nutch-1.7-bin.zip 包一、1、创建一个Java Project 。2、复制 nutch-1.7-src 包下 java 包里的org整个包放在 项目的src包下。3、复制 nutch-1.7-bin包里
2014-12-18 00:44:53 520
转载 Hadoop如何计算map数和reduce数
Hadoop在运行一个mapreduce job之前,需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数,当一个job提交时,jobclient首先分析job被拆分的split数量,然后吧job.split文件放置在HDFS中,一个job的MapTask数量就等于split的个数。job.split中包含split的个数由FileInputF
2014-12-15 00:34:24 563
转载 hadoop作业调优参数整理及原理
1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都会对应存在一个内存buffer(MapOut
2014-12-15 00:33:16 502
原创 HDFS中使用append出错
1.文件append的问题 hadoop的版本1.0.4以后,API中已经有了追加写入的功能,但不建议在生产环境中使用,原因如下:Does HDFS allow appends to files? This is currently set to false because there are bugs in the "append code" and is not supported i
2014-12-10 13:32:21 3869
原创 Hadoop作业提交的方法
最近几天一直在纠结hadoop作业提交的问题,对于命令行提交作业以及在集群中提交作业这里不再赘述,不会就去Google吧! 我们在客户机提交作业的时候总是发现出错,eclipse总是报jar file not found 的错误!我们知道客户端提交任务的时候,使用方法job.setWaitForCompletion(true)的时候,这个方法会调用job的submit()方法,sub
2014-12-02 19:36:11 622
hadoop-eclipse-plugin-1.2.1
2013-10-24
hadoop 权威指南(第三版)英文版
2013-10-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人