自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

翻译Term Vector Theory and Keyword Weights

第一次翻译,还真的很难Term Vector Theory and Keyword Weights词向量和关键字权重An Introductory Series on Term Vector Theory for Information Retrieval Students and Search Engine Marketers一系列介绍性的词向量相关的理论,针对信息提取的学生...

2008-05-07 11:56:53 190

配置paoding analysis

在开源中文analysis,我选择了paoding analysis,link:http://code.google.com/p/paoding配置如下:在CLASSPATH 上面加入:E:\eclipse\paoding-analysis.properties在用户变量加入:PAODING_DIC_HOME=》E:\dic把dic文件,就是字词文本文件放到对应的目录。测试...

2008-05-06 10:52:19 295

tag 与 字段的提取,使用双向链表实现

在上一篇中提到提取tag(包括文本),对于严格的html结构,如下:that is a p itemthat is a font item希望解析的结果如下:p:thag is a p itemfont:that is a font item......就是一个tag对应夹在tag间的所有文本,这样对于搜索的意义在于,不同tag的文本其搜索意义不一样,比如that is...

2008-05-05 11:22:48 155

html TagStream流的实现

我想对于一个html文件进行如下的处理:1)把html里面的文本也看成tag,对于tag有三种属性,一种是开始的tag,如,一种是结束的tag,比如,还有一种就是封闭在对应的开始和封闭的tag的文本,比如that is a p item,其中that is a p item就是普通文本。2)把html里面的所有tag(包括文本),形成一个数组,加入了hasnext(),next()方法...

2008-05-05 10:34:13 253

jvm垃圾回收问题

如果 两个对象 互相拥有 对方的 引用但又没有其他引用指向他们那么:有内存泄漏?因为这两个对象不会被自动回收?还是jvm会自动回收这两个对象?简单的例子:双向链表,head = null;那么后面的item会不会自动回收呢?...

2008-04-30 16:32:54 96

最小分词(中文分词)

中文分词一般有下面几种方法:(http://www.googlechinablog.com/2006/04/blog-post_10.html)1、基于字符串匹配的分词方法1)正向最大匹配法(由左到右的方向);2)逆向最大匹配法(由右到左的方向);3)最少切分(使每一句中切出的词数最小)。这几种方法一般都是通过“字典”来实现的,比如:"中国航天官员应邀到美国与太空总...

2008-04-24 15:55:30 1062

DataInputStream readLine()

[code="java"]public static String getHtml(String url){ try{ Socket clientSocket = new Socket(url, 80); clientSocket.setSoTimeout(20000); DataOutputStream outbound = new DataOutputStream...

2008-04-15 11:46:13 629

什么问题呢?

这是什么问题呢?是不是order这个是一个关键字?[code="java"]C:\Documents and Settings\zhou>mysql -u spider -pEnter password: ******Welcome to the MySQL monitor. Commands end with ; or \g.Your MySQL connection ...

2008-04-12 14:34:04 66

html parser html解析

对html的解析我的要求非常简单,就是形成tag=>text的对应关系,如下:[code="java"] title content body content p content [/code]解析之后:[code="java"]html=>nulltitle=>title ...

2008-04-11 14:55:45 254

url spider

在实现url的爬虫中,我觉得很难的就是url的筛检,如果可以都在内存中实现(就是假设内存无限大),我觉得可以简单这么做:把所有url都放在LinkedHashSet(使用link的原因是可以顺序访问,hashset是为了互斥,就是每个url只访问一次),从一个url开始:[color=darkred]url->linkedhashset->big linkedhashset->bigg...

2008-04-11 14:22:04 159

lucene org.apache.lucene.util.BitVector.java

[color=blue]1 org.apache.lucene.util分析package org.apache.lucene.util;Optimized implementation of a vector of bits. This is more-or-less likejava.util.BitSet, but also includes the following:...

2008-04-11 13:36:24 164

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除