2012年12月_WitsMakeMen

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月

转载 java内部类的作用分析

内部类编译后会生成单独的.class文件，所以java中有几个class，编译后就会生成几个.class文件。提起Java内部类（Inner Class）可能很多人不太熟悉，实际上类似的概念在C++里也有，那就是嵌套类（Nested Class），关于这两者的区别与联系，在下文中会有对比。内部类从表面上看，就是在类中又定义了一个类（下文会看到，内部类可以在很多地方定义），而实际上并没有那么简单

2012-12-29 20:54:11 970

原创 Hadoop中Mapper类的setup（）函数在什么地方调用

经过跟踪hadoop源码发现，Mapper类的setup（）函数在Mapper类的run（）函数中被调用。向hadoop提交job后，hadoop会在MapTask的runNewMapper（）或者runOldMapper（）函数中使用反馈机制实例化具体的Mapper子类，然后调用这个对象的run（）函数，其中setup()函数就在这个函数的开始被调用，因为hadoop会向setup（）函数中

2012-12-27 20:27:21 9629

原创如何和别人聊天

（1）首先让自己放松，不要紧张，两个人是平等的。（2）然后要专心的聆听对方的讲话。（3）自己讲话时要自信，要适当大声的说出自己的观点。（4）要体会当前的气氛，要适当调动谈话的气氛。（5）别人明显在不尊重你的时候，要大胆的说出不。（6）摆正自己的位置，对女人要想大哥一样，女人很多都希望自己被照顾。（7）女人和男人是一样的，要首先从意识里把女人摆正，要大方的和她们交流，不要刻意

2012-12-27 18:44:36 1041

原创 Hadoop中如何正确编写继承自Writable借口的子类

Hadoop中可以编写自己的类，用作hadoop job的key或者value类型，自己编写的类要实现借口Writable。我编写了一个HttpContent类，主要用于保存爬取网页的源码，返回状态和编码格式信息，他在mapper中别实例化保存网页内容，然后传输到reducer中被使用，在编写中遇到了一些问题：（1）首先是没有编写默认的构造函数类，因为java中的反馈机制需要一个参数为空的

2012-12-26 19:43:05 1448

转载 Hadoop中map/reduce编程中关于mapper和reducer的Format问题

Hadoop中的map/reduce编程中有几个非常关键的组件，其中包括 Mapper，Reducer，InputFormat，OutputFormat，OutputKeyClass，OutputValueClass 等，在刚接触map/reduce编程的时候很容易由于 InputFormat，OutputFormat，OutputKeyClass，OutputValueClass在程序中的设置

2012-12-26 16:12:01 2704

原创编写程序时候出现了问题ClassCastException: interface javax.xml.soap.Text

java.lang.ClassCastException: interface javax.xml.soap.Text at java.lang.Class.asSubclass(Unknown Source) at org.apache.hadoop.mapred.JobConf.getOutputKeyComparator(JobConf.java:599) at org.apache.

2012-12-25 20:15:25 4657 1

转载关于Hadoop的InputFormat类

org.apache.hadoop.mapreduce.InputFormat是一个抽象类，关于这个抽象类的功能描述如下：首先为Job验证输入；将输入的文件分成逻辑上的splits，每个split会被应用到一个单独的mapper上；提供RecorderReader的实现，用来从逻辑split中一点一点的收集数据到mapper中。这个抽象类中，有两个抽象方法需要实现：1.

2012-12-24 14:45:56 962

前面我们的Piont3D类型能够作为一个值来满足mapper的使用。但是如果我们也想用Point3D对象作为键呢？在Hadoop的MR中，如果向一个reduce任务分发不同的（key, value）对，reducer将有序地对键进行处理。所以键的类型必须实现一个更加严格的接口，WritableComparable。除了它是一个Writable，可以被在网络传输之外，它们也遵循Java的Compar

2012-12-24 14:29:40 844

转载 Hadoop之个性化数据类型

Hadoop在与用户写的Mapper和Reducer通信的时候，总是使用类型化的数据：从文件读入到Mapper中，Mappers向Reducers提交和Reducers到输出文件，都是存储在Java对象中的。Writable 类型可以和文件和网络相互通信的对象必须遵循特定的接口，叫做Writable，它允许Hadoop以一种序列化的形式读写数据以适应于传输。Hadoop提供了几个已

2012-12-24 14:23:58 779

转载如何对待女人

在这里给大家讲个故事，是个关于《女人是被男人疼的故事》;希望大家看完后，可以领悟出个属你自己的真理！女人入洞房那天，早早收起了自己的鞋，等男人脱鞋上炕，女人却双脚踩在男人的鞋上。男人见了，“嘿嘿”笑着说，还挺迷信。女人却认真地说，俺娘说了，踩了男人的鞋，一辈子不受男人的气。男人说，俺娘也说了，女人踩了男人的鞋，那是一辈子要跟男人吃苦受罪的。　　女人开始试探着管男人，先从生活小事儿

2012-12-23 16:42:06 878

原创 nutch部署过程中出现RuntimeException错误

nutch部署过程中出现了下面错误，主要是没有正确配置插件导致的，可以通过设置nutch-site.xml文件的plugin.folders属性解决问题 java.lang.RuntimeException: Error in configuring object at org.apache.hadoop.util.ReflectionUtils.setJobConf(Reflectio

2012-12-15 11:28:02 2893 2

原创 nutch-1.4中IndexingFilter的变化

nutch-1.4后IndexingFilter扩展点中少了一个用于添加索引Field属性的函数addIndexBackendOptions(Configuration conf)，这样如果再用nutch-1.2中的LuceneWriter做索引，需要自己设置Field的属性，下面代码为nutch-1.4的IndexingFilter类源代码：/** * Licensed to the Ap

2012-12-13 20:07:48 981

原创 PluginRepository负责加载nutch系统下的插件，可以通过installExtensionPoints（）函数查看要加载的插件和对应路径

private void installExtensionPoints(List plugins) { if (plugins == null) { return; } for (PluginDescriptor plugin: plugins) { for(ExtensionPoint point:plugin.getExtenstio

2012-12-13 11:04:25 1004

转载 Google's BigTable 原理（google三驾马车）

Google's BigTable 原理（翻译）题记：google 的成功除了一个个出色的创意外，还因为有 Jeff Dean 这样的软件架构天才。 ------编者官方的 Google Reader blog 中有对BigTable 的解释。这是Google 内部开发的

2012-12-10 20:20:48 1412

转载 Google File System（google三驾马车）

Google文件系统 GFS是一个可扩展的分布式文件系统，用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上，但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。1、设计概览（1）设计想定 GFS与过去的分布式文件系统有很多相同的目标，但GFS的设计受到了当前及预期的应用方面的工作量及技术环境的驱动，这反映了它与早期的文件系统明显不同的设想。这

2012-12-10 20:19:29 1824

转载 MapReduce:超大机群上的简单数据处理（google三驾马车）

摘要MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间value.下面将列举许多可以用这个模型来表示的现实世界的工作.以这种方式写的程序能自动的在大规模的普通机器上实现并行化.这个运行时系统关心这些细节:分割输入数据,在机

2012-12-10 20:17:29 1337

转载为什么hadoop一定是分布式的未来

2012-12-10 20:02:31 1058

原创我用过的nutch管理命令

bin/nutch readdb localweb/crawldb -stats：统计链接库CrawlDbbin/nutch readdb localweb/crawldb -dump pageurl：导出每个url的信息到pageurl文件夹中

2012-12-10 19:15:31 1114

原创如何在eclipse中编写好程序，然后打包成jar文件，在hadoop分布式集群上运行

（1）首先将下载好的hadoop源码解压，将解压后顶级目录和lib中的压缩文件加载到你的工程中（他们包括了hadoop源码和一些需要的第三方源码），然后就可以编写hadoop程序了。（2）编写好hadoop程序，调试没有错误后，就可以通过(jar -cvf yourname.jar -C bin/ .)，将工程中bin目录下编译好的.class文件打包成你想要的.jar压缩文件包。（3）将

2012-12-06 21:17:16 12323 3

转载将eclipse下编译的class文件打包成hadoop集群可以运行的jar包的过程

把eclipse下编译的class文件打包成hadoop集群可用文件的过程首先要在eclipse下运行成功，在工程项目下打bin文件夹为jar文件，压缩方式为： jar -cvf sort.jar -C bin/ . 这个是一个排序程序，代码如下import java.io.IOException;import

2012-12-06 20:29:10 7334

原创 eclipse下第一个hadoop程序出现错误ClassCastException

java.lang.ClassCastException: interface javax.xml.soap.Text at java.lang.Class.asSubclass(Unknown Source) at org.apache.hadoop.mapred.JobConf.getOutputKeyComparator(JobConf.java:599) at org.apache.

2012-12-06 10:55:25 1991

原创使用crontab定时启动nutch遇到的问题

linux下使用crontab定时启动nutch时，发现不能正常启动，将错误输出到日志log中报“Error: JAVA_HOME is not set.”说明java路径没有设置好，但linux系统下已经在profile文件中配置了JAVA_HOME。后来，写了一个runcrawler.sh文件，文件内容为#!/bin/bashcd /home/program/nutch-1.2/

2012-12-05 18:07:17 1527

转载 nutch和solr配置实用

1.1nutch和solrNutch是一个开源的、Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。Solr拥有像web-services API的独立的企业级搜索服务器。用XML通过HTTP向它添加文档(称为做索引)，通过HTTP查询返回XML结果。1.2研究nutch的原因可能有的朋友会有疑问,我们有google,有百度,为何还需要建立自

2012-12-04 16:07:09 16308

转载 solr使用指南

本文转自 http://chuanliang2007.spaces.live.com/blog/cns!E5B7AB2851A4C9D2!499.entry?wa=wsignin1.0由于搜索引擎功能在门户社区中对提高用户体验有着重在门户社区中涉及大量需要搜索引擎的功能需求，目前在实现搜索引擎的方案上有集中方案可供选择：1. 基于Lucene自己进行封装实现站内搜索。工作量及扩展性都较

2012-12-04 10:00:16 1916

转载 nutch和solr配置学习

Nutch和Solr是两个由Apache成员创建的实用工具，你可以使用Nutch抓取网页，使用Solr索引你得到的数据。除了索引各类网站，这些工具还有很多其他功能，本文将不涉及这些，而是一篇针对如何使用Nutch抓取网页并使用Solr索引并搜索你抓取的数据的新手指南。本文将不会讨论它们如何工作的大量细节，而会告诉你如何运行一个爬虫和建立索引，我将假设你已经搭建好了tomcat服

2012-12-03 19:22:48 2376

JMF开源软件包

JMF开源软件包，可以使用编写视频音乐播放器等

2012-09-23

javacc-4.0和javacc-5.0

用于编译.jj文件的软件包，javacc工具，编译NutchAnalysis.jj文件时用到的，很好的一个开源代码

2012-09-17

数据结构试验山东大学

山东大学数据结构试验试验1 子集全排序试验2 插入排序冒泡排序归并排序基数排序试验3 链表插入删除合并正向反向输出试验4 二叉树插入删除前序中序后序遍历试验5 堆插入删除输出排序试验6 图输出最小树

2011-05-19

数据库课程设计-图书馆信息管理系统

(1) 读者信息的制定、输入、修改、查询，包括种类、性别、借书数量、借书期限、备注。(2) 书籍基本信息制定、输入、修改、查询，包括书籍编号、类别、关键词、备注。(3) 借书信息制定、输入、修改、查询，包括书籍编号、读者编号、借书日期、借书期限、备注。(4) 还书信息制定、输入、修改、查询，包括书籍编号、读者编号、还书日期、还书期限、备注。 (5)意外处理（续借、超期赔偿、丢失赔偿、损坏赔偿等） (6)多条件查询各种信息.(7)用户权限（普通读者和图书管理员）（8）异常处理

2011-05-18

图形学第二个试验-多边形世界

写一个可以交互的OpenGL应用程序，支持用户利用鼠标创建和删除2维多边形对象。基本功能包括：对象创建：支持用户利用鼠标指定各个顶点位置，创建多边形。对象删除：支持用户选择一个多边形（与你的多边形保存的数据结构有关）并删除。对象存储：设计一种数据结构存储每个多边形的顶点与边，支持文件存盘，。提示：由于删除操作需要多边形的选择机制，你可以在设计数据结构时，把可以帮助你完成选择的信息一起保存。扩展功能可以包括（至少选择其一）： 1. 支持用户选择多边形的颜色 2. 支持用户移动多边形 3. 支持用户改变多边形单个顶点的位置 4. 支持3D多边形 5. 其他（需要通过指导老师认可）

2011-05-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

WitsMakeMen的专栏

转载 java内部类的作用分析

原创 Hadoop中Mapper类的setup（）函数在什么地方调用

原创如何和别人聊天

原创 Hadoop中如何正确编写继承自Writable借口的子类

转载 Hadoop中map/reduce编程中关于mapper和reducer的Format问题

原创编写程序时候出现了问题ClassCastException: interface javax.xml.soap.Text

转载关于Hadoop的InputFormat类

转载 Hadoop之个性化键类型

转载 Hadoop之个性化数据类型

转载如何对待女人

原创 nutch部署过程中出现RuntimeException错误

原创 nutch-1.4中IndexingFilter的变化

原创 PluginRepository负责加载nutch系统下的插件，可以通过installExtensionPoints（）函数查看要加载的插件和对应路径

转载 Google's BigTable 原理（google三驾马车）

转载 Google File System（google三驾马车）

转载 MapReduce:超大机群上的简单数据处理（google三驾马车）

转载为什么hadoop一定是分布式的未来

原创我用过的nutch管理命令

原创如何在eclipse中编写好程序，然后打包成jar文件，在hadoop分布式集群上运行

转载将eclipse下编译的class文件打包成hadoop集群可以运行的jar包的过程

原创 eclipse下第一个hadoop程序出现错误ClassCastException

原创使用crontab定时启动nutch遇到的问题

转载 nutch和solr配置实用

转载 solr使用指南

转载 nutch和solr配置学习

JMF开源软件包

javacc-4.0和javacc-5.0

数据结构试验山东大学

数据库课程设计-图书馆信息管理系统

图形学第二个试验-多边形世界

空空如也

JMF开源软件包

javacc-4.0和javacc-5.0

数据结构试验 山东大学

数据库课程设计-图书馆信息管理系统

图形学第二个试验-多边形世界

空空如也

数据结构试验山东大学