2013年08月_ATCO

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 MIME类型参考

一般常见的MIME类型：超文本标记语言文本 .html,.html text/html 普通文本 .txt text/plain RTF文本 .rtf application/rtf GIF图形 .gif

2013-08-27 10:02:10 926

转载 JAVA操作MySQL数据库类

数据库操作可以中WEB开发中最常用到的,很多Java开发工具都提供了自动的Data bean WinZard.只要数据库建立好,相应的操作数据库的Bean就基本可以自动完成,本人使用Jcreator开发bean,手工录入觉得也不是很麻烦的事情,下面我常用的数据库操作bean,完全可以对付访问量不是很大的系统 :Mysql类:import java.sql.*; import

2013-08-26 14:23:54 734

转载 mapreduce程序设计---从xml中读取参数的方法

在主函数当中通过Public class configurationPrinter extends Configured implements Tool{Static{Configuration.addDefaultResource("hdfs-default.xml");Configuration addDefaultResource("hdfs-site.xml")

2013-08-13 17:28:02 1566

转载 [Hadoop源码解读]（五）MapReduce篇之Writable相关类

前面讲了InputFormat，就顺便讲一下Writable的东西吧，本来应当是放在HDFS中的。当要在进程间传递对象或持久化对象的时候，就需要序列化对象成字节流，反之当要将接收到或从磁盘读取的字节流转换为对象，就要进行反序列化。Writable是Hadoop的序列化格式，Hadoop定义了这样一个Writable接口。[html] view plaincopyprint?

2013-08-13 17:26:36 625

转载 [Hadoop源码解读]（四）MapReduce篇之Counter相关类

当我们定义一个Counter时，我们首先要定义一枚举类型：[html] view plaincopyprint?public static enum MY_COUNTER{ CORRUPTED_DATA_COUNTER, NORMAL_DATA_COUNTER }; 然后，我们就可以在mapper或reduce

2013-08-13 17:25:38 763

转载 [Hadoop源码解读]（三）MapReduce篇之Job类

下面，我们只涉及MapReduce 1，而不涉及YARN。当我们在写MapReduce程序的时候，通常，在main函数里，我们会像下面这样做。建立一个Job对象，设置它的JobName，然后配置输入输出路径，设置我们的Mapper类和Reducer类，设置InputFormat和正确

2013-08-13 17:24:53 678

转载 [Hadoop源码解读]（二）MapReduce篇之Mapper类

前面在讲InputFormat的时候，讲到了Mapper类是如何利用RecordReader来读取InputSplit中的K-V对的。这一篇里，开始对Mapper.class的子类进行解读。先回忆一下。Mapper有setup()，map()，cleanup()和run()四个方法。其中setup()一般是用来进行一些map()前的准备工作，map()则一般承担主要的处理工

2013-08-13 17:23:36 721

转载 [Hadoop源码解读]（一）MapReduce篇之InputFormat

平时我们写MapReduce程序的时候，在设置输入格式的时候，总会调用形如job.setInputFormatClass(KeyValueTextInputFormat.class);来保证输入文件按照我们想要的格式被读取。所有的输入格式都继承于InputFormat，这是一个抽象类，其子类有专门用于读取普通文件的FileInputFormat，用来读取数据库的DBInputFormat等等。

2013-08-13 17:21:01 969

转载 java使用JDBC连接MYSQL

1、配置MySQL驱动包MySQL驱动包下载地址http://dev.mysql.com/downloads/connector/j/5.1.html（要注意版本号，MySQL版本为5.0的要下5.0的哦！）（1）在cmd下调试JDBC连接MySQL要在环境变量中设置CLASSPATH=D:/Java/mysqlconnertor/mysql-connector-jav

2013-08-13 14:48:29 924

转载 MapReduce的输入输出格式

默认的mapper是IdentityMapper，默认的reducer是IdentityReducer，它们将输入的键和值原封不动地写到输出中。默认的partitioner是HashPartitinoer，它根据每条记录的键进行哈希操作来分区。输入文件：文件是MapReduce任务的数据的初始存储地。正常情况下，输入文件一般是存在HDFS里。这些文件的格式可以是任意

2013-08-08 15:45:43 724

转载网页分类技术介绍

1. 技术背景分类问题是人类所面临的一个非常重要且具有普遍意义的问题。将事物正确的分类，有助于人们认识世界，使杂乱无章的现实世界变得有条理。自动文本分类就是对大量的自然语言文本按照一定的主题类别进行自动分类，它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索，机器翻译，自动文摘，信息过滤，邮件分类等任务。文本分类的一个关键问题是特征词的选择问题及其权重分配。

2013-08-06 11:44:08 986

转载构建一个高性能的网页抓取器

互联网的发展，使人类提前进入了信息爆炸的年代，在浩瀚无边的信息海洋里，如何快速、准确找到对自己有用的信息，就成了一个很有价值的研究课题，于是，搜索引擎应运而生。现在，国内外大大小小的搜索引擎有很多，搜搜也是这搜索引擎大军中的一员悍将。笔者有幸参与了搜搜研发过程中的一些工作，在这里写一些自己的理解与看法，权当是抛砖引玉，希望能够得到业内前辈们的一些指点。对于网页搜索引擎来说，它的基本

2013-08-06 11:26:03 784

转载 spider技术综述

Spider系统是搜索引擎当中进行互联网上数据采集的一个核心子系统。在这个子系统当中，通常先种入一批种子Url，Spider对这些种子Url采集之后将链接提取入库，然后再对新入库的Url进行采集，并且负责对采集过的Url进行更新采集，如此循环。随着各种垂直搜索引擎的不断发展，整个Spider在功能上又分为传统的收集互联网上所有数据的大Spider和服务于某个专门领域的聚焦

2013-08-06 11:03:31 757

net.sf.fjep.fatjar_0.0.31插件

使用net.sf.fjep.fatjar_0.0.31可以在ECLIPSE中很方便的将第三方JAR包打进自已的JAR包中，以免总是找不到相关的类或需要设置大量环境变量，具体请查看博文：http://blog.csdn.net/atco/article/details/7626131

2012-06-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人