- 博客(25)
- 资源 (5)
- 收藏
- 关注
转载 java内部类的作用分析
内部类编译后会生成单独的.class文件,所以java中有几个class,编译后就会生成几个.class文件。提起Java内部类(Inner Class)可能很多人不太熟悉,实际上类似的概念在C++里也有,那就是嵌套类(Nested Class),关于这两者的区别与联系,在下文中会有对比。内部类从表面上看,就是在类中又定义了一个类(下文会看到,内部类可以在很多地方定义),而实际上并没有那么简单
2012-12-29 20:54:11 970
原创 Hadoop中Mapper类的setup()函数在什么地方调用
经过跟踪hadoop源码发现,Mapper类的setup()函数在Mapper类的run()函数中被调用。向hadoop提交job后,hadoop会在MapTask的runNewMapper()或者runOldMapper()函数中使用反馈机制实例化具体的Mapper子类,然后调用这个对象的run()函数,其中setup()函数就在这个函数的开始被调用,因为hadoop会向setup()函数中
2012-12-27 20:27:21 9629
原创 如何和别人聊天
(1)首先让自己放松,不要紧张,两个人是平等的。(2)然后要专心的聆听对方的讲话。(3)自己讲话时要自信,要适当大声的说出自己的观点。(4)要体会当前的气氛,要适当调动谈话的气氛。(5)别人明显在不尊重你的时候,要大胆的说出不。(6)摆正自己的位置,对女人要想大哥一样,女人很多都希望自己被照顾。(7)女人和男人是一样的,要首先从意识里把女人摆正,要大方的和她们交流,不要刻意
2012-12-27 18:44:36 1041
原创 Hadoop中如何正确编写继承自Writable借口的子类
Hadoop中可以编写自己的类,用作hadoop job的key或者value类型,自己编写的类要实现借口Writable。我编写了一个HttpContent类,主要用于保存爬取网页的源码,返回状态和编码格式信息,他在mapper中别实例化保存网页内容,然后传输到reducer中被使用,在编写中遇到了一些问题:(1)首先是没有编写默认的构造函数类,因为java中的反馈机制需要一个参数为空的
2012-12-26 19:43:05 1448
转载 Hadoop中map/reduce编程中关于mapper和reducer的Format问题
Hadoop中的map/reduce编程中有几个非常关键的组件,其中包括 Mapper,Reducer,InputFormat,OutputFormat,OutputKeyClass,OutputValueClass 等,在刚接触map/reduce编程的时候很容易由于 InputFormat,OutputFormat,OutputKeyClass,OutputValueClass在程序中的设置
2012-12-26 16:12:01 2704
原创 编写程序时候出现了问题ClassCastException: interface javax.xml.soap.Text
java.lang.ClassCastException: interface javax.xml.soap.Text at java.lang.Class.asSubclass(Unknown Source) at org.apache.hadoop.mapred.JobConf.getOutputKeyComparator(JobConf.java:599) at org.apache.
2012-12-25 20:15:25 4657 1
转载 关于Hadoop的InputFormat类
org.apache.hadoop.mapreduce.InputFormat是一个抽象类,关于这个抽象类的功能描述如下:首先为Job验证输入;将输入的文件分成逻辑上的splits,每个split会被应用到一个单独的mapper上;提供RecorderReader的实现,用来从逻辑split中一点一点的收集数据到mapper中。这个抽象类中,有两个抽象方法需要实现:1.
2012-12-24 14:45:56 962
转载 Hadoop之个性化键类型
前面我们的Piont3D类型能够作为一个值来满足mapper的使用。但是如果我们也想用Point3D对象作为键呢?在Hadoop的MR中,如果向一个reduce任务分发不同的(key, value)对,reducer将有序地对键进行处理。所以键的类型必须实现一个更加严格的接口,WritableComparable。除了它是一个Writable,可以被在网络传输之外,它们也遵循Java的Compar
2012-12-24 14:29:40 844
转载 Hadoop之个性化数据类型
Hadoop在与用户写的Mapper和Reducer通信的时候,总是使用类型化的数据:从文件读入到Mapper中,Mappers向Reducers提交和Reducers到输出文件,都是存储在Java对象中的。Writable 类型可以和文件和网络相互通信的对象必须遵循特定的接口,叫做Writable,它允许Hadoop以一种序列化的形式读写数据以适应于传输。Hadoop提供了几个已
2012-12-24 14:23:58 779
转载 如何对待女人
在这里给大家讲个故事,是个关于《女人是被男人疼的故事》;希望大家看完后,可以领悟出个属你自己的真理! 女人入洞房那天,早早收起了自己的鞋,等男人脱鞋上炕,女人却双脚踩在男人的鞋上。男人见了,“嘿嘿”笑着说,还挺迷信。女人却认真地说,俺娘说了,踩了男人的鞋,一辈子不受男人的气。男人说,俺娘也说了,女人踩了男人的鞋,那是一辈子要跟男人吃苦受罪的。 女人开始试探着管男人,先从生活小事儿
2012-12-23 16:42:06 878
原创 nutch部署过程中出现RuntimeException错误
nutch部署过程中出现了下面错误,主要是没有正确配置插件导致的,可以通过设置nutch-site.xml文件的plugin.folders属性解决问题 java.lang.RuntimeException: Error in configuring object at org.apache.hadoop.util.ReflectionUtils.setJobConf(Reflectio
2012-12-15 11:28:02 2893 2
原创 nutch-1.4中IndexingFilter的变化
nutch-1.4后IndexingFilter扩展点中少了一个用于添加索引Field属性的函数addIndexBackendOptions(Configuration conf),这样如果再用nutch-1.2中的LuceneWriter做索引,需要自己设置Field的属性,下面代码为nutch-1.4的IndexingFilter类源代码:/** * Licensed to the Ap
2012-12-13 20:07:48 981
原创 PluginRepository负责加载nutch系统下的插件,可以通过installExtensionPoints()函数查看要加载的插件和对应路径
private void installExtensionPoints(List plugins) { if (plugins == null) { return; } for (PluginDescriptor plugin: plugins) { for(ExtensionPoint point:plugin.getExtenstio
2012-12-13 11:04:25 1004
转载 Google's BigTable 原理(google三驾马车)
Google's BigTable 原理 (翻译) 题记:google 的成功除了一个个出色的创意外,还因为有 Jeff Dean 这样的软件架构天才。 ------编者 官方的 Google Reader blog 中有对BigTable 的解释。这是Google 内部开发的
2012-12-10 20:20:48 1412
转载 Google File System(google三驾马车)
Google文件系统 GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。1、设计概览 (1)设计想定 GFS与过去的分布式文件系统有很多相同的目标,但GFS的设计受到了当前及预期的应用方面的工作量及技术环境的驱动,这反映了它与早期的文件系统明显不同的设想。这
2012-12-10 20:19:29 1824
转载 MapReduce:超大机群上的简单数据处理(google三驾马车)
摘要MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间value.下面将列举许多可以用这个模型来表示的现实世界的工作.以这种方式写的程序能自动的在大规模的普通机器上实现并行化.这个运行时系统关心这些细节:分割输入数据,在机
2012-12-10 20:17:29 1337
转载 为什么hadoop一定是分布式的未来
为什么Hadoop将一定会是分布式计算的未来?版权声明:写本文由leftnoteasy发布于http://leftnoteasy.cnblogs.com 本文可以被全部或者部分的使用,但请注明出处,如果有问题,可以联系wheeleast (at) gmail.com, 也可以加我的新浪微博:http://weibo.com/leftnoteasy前言: 很久没有写
2012-12-10 20:02:31 1058
原创 我用过的nutch管理命令
bin/nutch readdb localweb/crawldb -stats:统计链接库CrawlDbbin/nutch readdb localweb/crawldb -dump pageurl:导出每个url的信息到pageurl文件夹中
2012-12-10 19:15:31 1114
原创 如何在eclipse中编写好程序,然后打包成jar文件,在hadoop分布式集群上运行
(1)首先将下载好的hadoop源码解压,将解压后顶级目录和lib中的压缩文件加载到你的工程中(他们包括了hadoop源码和一些需要的第三方源码),然后就可以编写hadoop程序了。(2)编写好hadoop程序,调试没有错误后,就可以通过(jar -cvf yourname.jar -C bin/ .),将工程中bin目录下编译好的.class文件打包成你想要的.jar压缩文件包。(3)将
2012-12-06 21:17:16 12323 3
转载 将eclipse下编译的class文件打包成hadoop集群可以运行的jar包的过程
把eclipse下编译的class文件打包成hadoop集群可用文件的过程首先要在eclipse下运行成功,在工程项目下打bin文件夹为jar文件, 压缩方式为: jar -cvf sort.jar -C bin/ . 这个是一个排序程序,代码如下import java.io.IOException;import
2012-12-06 20:29:10 7334
原创 eclipse下第一个hadoop程序出现错误ClassCastException
java.lang.ClassCastException: interface javax.xml.soap.Text at java.lang.Class.asSubclass(Unknown Source) at org.apache.hadoop.mapred.JobConf.getOutputKeyComparator(JobConf.java:599) at org.apache.
2012-12-06 10:55:25 1991
原创 使用crontab定时启动nutch遇到的问题
linux下使用crontab定时启动nutch时,发现不能正常启动,将错误输出到日志log中报“Error: JAVA_HOME is not set.”说明java路径没有设置好,但linux系统下已经在profile文件中配置了JAVA_HOME。后来,写了一个runcrawler.sh文件,文件内容为#!/bin/bashcd /home/program/nutch-1.2/
2012-12-05 18:07:17 1527
转载 nutch和solr配置实用
1.1nutch和solrNutch是一个开源的、Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。Solr拥有像web-services API的独立的企业级搜索服务器。用XML通过HTTP向它添加文档(称为做索引),通过HTTP查询返回XML结果。1.2研究nutch的原因可能有的朋友会有疑问,我们有google,有百度,为何还需要建立自
2012-12-04 16:07:09 16308
转载 solr使用指南
本文转自 http://chuanliang2007.spaces.live.com/blog/cns!E5B7AB2851A4C9D2!499.entry?wa=wsignin1.0由于搜索引擎功能在门户社区中对提高用户体验有着重在门户社区中涉及大量需要搜索引擎的功能需求,目前在实现搜索引擎的方案上有集中方案可供选择:1. 基于Lucene自己进行封装实现站内搜索。工作量及扩展性都较
2012-12-04 10:00:16 1916
转载 nutch和solr配置学习
Nutch和Solr是两个由Apache成员创建的实用工具,你可以使用Nutch抓取网页,使用Solr索引你得到的数据。除了索引各类网站,这些工具还有很多其他功能,本文将不涉及这些,而是一篇针对如何使用Nutch抓取网页并使用Solr索引并搜索你抓取的数据的新手指南。本文将不会讨论它们如何工作的大量细节,而会告诉你如何运行一个爬虫和建立索引,我将假设你已经搭建好了tomcat服
2012-12-03 19:22:48 2376
数据结构试验 山东大学
2011-05-19
数据库课程设计-图书馆信息管理系统
2011-05-18
图形学第二个试验-多边形世界
2011-05-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人