- 博客(142)
- 资源 (1)
- 问答 (2)
- 收藏
- 关注
中文分词 mmseg4j-1.8 版发布
想发布新版的 mmseg4j 到现在已经有二个多月了。主要是因为这段时间忙其它事情了。现 Lucene 2.9 发布了,solr 1.4 也应该会比较快就要发布了。对 mmseg4j 兼容新版的 lucene/solr 也是个任务。 现 mmseg4j 发布新版 1.8,可以下载:mmseg4j-1.8.zip 包括了源码与词库,还有创建文件。下面说下此版的主要变更: new:...
2009-10-19 09:39:33 323
讨论 mmseg4j 的现状,与改进。
发布最新一个 mmseg4 (1.7.2 与 1.6.2)版,距今也有几个月了。max-word 方式还不完善,有很多需要改进的地方。由于没有个好的想法,以至几个月都没更新。mmseg4j 项目也受到一些的关注,十分有必要改进。这贴说明下 mmseg4 的现状和 todo 功能,同时希望 javaeyer 们给予些建议或想法。 字符的处理:先断开不同类型的字符,断开的成为一个“句子”(类:...
2009-08-04 13:58:19 356
google 真的被封?
昨天晚上开始,mail.google.com 无法打开。然后尝试 google.com 的其它服务都不能正常访问。只有 google.cn 正常。gfw 真强大。一句名言说得真不错 “技术的力量永远干不过政治的力量”。联想到了“闭封锁国”……悲哀!...
2009-06-25 09:30:33 871
中文分词 mmseg4j 1.7.2 版发布
中文分词 mmseg4j 1.7.2 版发布,其实两天前就发布了,只是没有写博客而已。与引版本发布的还有 1.6.2,两者基本一样,只是词库的数据结构不同,1.7的是键树,1.6的是数组与二分查找。mmseg4j 1.7.2 版的主要更新:[list][*] 修复由 1.7-beta 升级到 1.7 版的 bug:添加 lowerCaseFilter 后的一个 bug: NullP...
2009-04-27 10:12:09 168
mmseg4j 1.7 beta 版发布
mmseg4j 1.7 beta 版,主要改进分词速度。最大的变动是词库的数据结构改变了,改为key tree(键树)。有几点的性能改进:[list][*]要比较的词不从 char[] sen(代分词的句子) 里复制,直接与词库结构比较, 性能提升10% [*]用 key tree 的词库数据结构, 性能提升不少[*]用 key tree 里实现的 maxmatch, 同时返回...
2009-04-14 11:04:44 127
mmseg4j 多分词模式与 paoding 分词效果对比
mmseg4j 1.6支持最多分词,应网友的要求:分词效果与 paoding 对比下。观察了 paoding 部分分词结果,现总结下。paoding 分词效果:[code="java"]--------------------------清华大学清华 | 大 | 华大 | 大学 | --------------------------华南理工大学华南 | 理工 | ...
2009-04-13 09:52:38 123
mmseg4j 中文分词 1.6 版发布
经过几天的开发与调试,mmseg4j 1.6 版可以发布了。1.6 版主要实现与下功能:[list][*]实现多分词,在complex基础上,把长的词(大于2)拆出多个词。按二元分词,且把不存在的词去了,如:“西伯利亚” -> "西|伯利|利亚","西伯" 不存在词库中;“中国人民银行”-> "中国|国人|人民|银行" [*]支持多个词库文件,在词库目录中放"words"前缀且"....
2009-04-07 09:46:01 126
mmseg4j 中文分词 1.5 版发布
经过几天的开发与调试,新版的 mmseg4j 可以发布了。定为1.5版,是因为变动比较大。mmseg4j 1.5变更:[list][*]使用 sogou 词库,是从 [url]http://www.sogou.com/labs/dl/w.html[/url] ,下载的,然后转换下(一行一词)。 [*]把chars.dic文件放到jar里, 我们不需要关心它,当然你在词库...
2009-04-01 14:25:03 139
mmseg4j 分词速度
看一下 mmseg4j 的分词速度如何,下载了两篇长篇小说共2.5M左右,可以到 [url]http://mmseg4j.googlecode.com/files/txt.zip[/url]。2.5M的数据,用Complex模式是 5.3秒左右,不知是快还是慢(因为没有对比),Simple 模式用了2.9秒。(AMD athlon 64 2800+ 1G内存 xp)以上数据是在 eclip...
2009-03-28 17:03:03 184
中文分词 mmseg4j
使用 paoding 的配置觉得有点复杂,而且管理词库也有点不方便,同时自己也想了解下中文分词算法,然后就想自己写个中文分词器,在lucene和solr中使用。在 javaeye 看到有关 mmseg 的简介,看了下还不错,简单方便,那就用它来写个java版吧,我搜索 mmseg的java版(好像是 solo,官方已经下载不了),弄清分词算法还是自己写写吧。实在想不到其它名字,就称它为 m...
2009-03-22 23:46:28 207
Hadoop 快速入门(二)--Fully-Distributed Mode
上一篇记录了本机模式我虚拟分布模式。http://www.blogjava.net/chenlb/archive/2008/08/11/221311.html现我在虚拟机里开三台机子,分别命名为:master(172.16.249.210),slave-1(172.16.249.211),slave-2(172.16.249.212)。master可以无密码登录到slave机。每台机子都...
2008-08-11 15:45:00 170
Hadoop 快速入门
Required Software JavaTM 1.5.x ssh与sshd 如果没有安装请自行安装。我以CentOS 4.6为例。下载hadoop,http://apache.mirror.phpchina.com/hadoop/core/ 我下载的是0.17.1版本。解压hadoop-0.17.1.tar.gz,然后conf/hadoop-env.sh 设置...
2008-08-11 15:28:00 107
Linux 重启网卡
在linux下改了ip地址后,不能立即生效。以前是重启机器,我觉得这样很傻,后来知道网卡可以重启。/etc/init.d/network restart
2008-08-11 09:34:00 170
solr 的 Distributed Searching 试用
一直想了解分布搜索与索引。Lucene有MultiSearcher,solr1.2的只能有单个索引,现在1.3可以有Distributed Searching这玩意。可以从多个索引里搜索出并合并结果返回给你。这些索引不是replication的,是分割的。可以先%num方式索引在num台机器上,然后用solr的shards参数。如:shards=localhost:8080/use-solr...
2008-08-07 18:31:00 117
xml 转义符
html 与 xml的转义符不同, xml就只有5个: < &lt; > &gt; & &amp; ...
2008-08-06 12:40:00 318
使用 mysql 免安装版
我比较喜欢免安装版(非安装版)的mysql,下载如: mysql-noinstall-5.0.45-win32.zip把它解压到如: E:/mysql-5.0.45, 当然可以任意位置。然后改my-medium.ini文件为my.ini,当然也可以不改名,但要改内容basedir="E:/mysql-5.0.45/"datadir="E:/mysql-5.0.45/Data/"...
2008-08-03 16:22:00 134
Tomcat shtml ssi
想让Tomcat支持ssi,一般是shtml文件。配置比较简单。默认tomcat不支持ssi。现以tomcat5.5.x为例。改conf/web.xml配置。有两种方式:一是servlet,二是filter。servlet方式的:<!-- <servlet> <servlet-name>ssi</servle...
2008-07-27 21:55:00 120
javascript 不停(setInterval)/延时(setTimeout)函数
setTimeout(script,millisecond); 是从现在算起多少微秒后运行该代码(只运行一次)setInterval(script,millisecond); 是每隔多少微秒运行一次代码示例:1.执行一次<span id="time"></span> 秒<script type="text/javascript">var i =...
2008-07-10 21:36:00 145
解压 *.tar.gz 文件
linux下的很软件都是 tar.gz后缀的,解压久了不用就忙了,写备忘。现我知的直接解压方法有两种1.gunzip与targunzip < *.tar.gz | tar -xvf -2.只用tartar -zxvf *.tar.gz说明:z表示:通过gzip指令处理备份文件x表示:解压v表示:输出解压过程信息f表示:指定备份文件...
2008-07-08 11:14:00 1858
solr1.3 的新功能
solr 1.3 还没有正式发布,在这里记录下从solr 1.2的主要改动: solrj solr的java客户端,可以嵌入搜索(不是http/xml交互) multi-core 多核心——1个web应用可以用多种的搜索服务,即可以多个schema.xml search components 搜索组件。 distributed search 分布式搜索。 ...
2008-07-08 10:20:00 121
solr 分布式(复制)配置
solr 分布式其实是分发,这概念像Mysql的复制。所有的索引的改变都在主服务器里,所有的查询都在从服务里。从服务器不断地(定时)从主服务器拉内容,以保持数据一致。先描述下我的环境:solr-master(192.168.1.181), solr-slave(192.168.1.155), jdke1.6.0_06, tomcat-5.5.26, solr-1.2 tomcat_home...
2008-07-04 16:49:00 211
svn服务器迁移, 旧的项目url怎么办?
由于svn服务器的调整,很多项目里的链接还是旧的服务器,又由于项目里有些东西还没有提交,所不能删除svn的元数据,怎样才能适应svn的迁移呢? 我的项目全在Eclipse下面,用subeclipse客户端,在subeclipse找了好久没找到此功能,最后在TortoiseSVN找,找到了右击本地与svn相连的目录-->"TortoiseSVN"-->"Reloate......
2008-07-04 11:06:00 169
ssh 免密码登录
ssh 无密码登录要使用公钥与私钥。linux下可以用用ssh-keygen生成公钥/私钥对,下面我以CentOS为例。有机器A(192.168.1.155),B(192.168.1.181)。现想A通过ssh免密码登录到B。1.在A机下生成公钥/私钥对。[chenlb@A ~]$ ssh-keygen -t rsa -P ''-P表示密码,-P '' 就表示空密码,也可以不用-P参...
2008-07-03 12:19:00 393
cron 用法
我用CentOS为例。简介: cron来源于希腊单词chronos(意为“时间”),是linux系统下一个自动执行指定任务的程序。例如,你想在每晚睡觉期间创建某些文件或文件夹的备份,就可以用cron来自动执行。CentOS的cron默认是开机启动的,如果没有开机启动可以用chkconfig[root@chenlb-pc ~]# chkconfig crond on查看cron...
2008-07-02 16:23:00 182
solr 术语
Solr 涉及的术语,简单介绍下:Auto-warming(自动预热) 当打开一个新的缓存时,它把在旧缓存里命中较高的键/值添加到新的缓存里。Constraint(限制) 限制对象集的方法。Facet(层面) 对象集的一个方面或特定的一部分,这可以用来资源分类。Filter(过虑器) 它由上下方决定,可能是:1. Constraint(限制)的那称呼。2. 限制查询结果的"fq"...
2008-06-26 11:52:31 132
Levenshtein Distance(LD)-计算两字符串相似度算法
两字符串相似度计算方法有好多,现对基于编距的算法的相似度计算自己总结下。 简单介绍下Levenshtein Distance(LD):LD 可能衡量两字符串的相似性。它们的距离就是一个字符串转换成那一个字符串过程中的添加、删除、修改数值。 举例:如果str1="test",str2="test",那么LD(str1,str2) = 0。没有经过转换。如果str1=...
2008-06-24 18:46:11 339
不抛出越界异常的求子串方法
用String.substring方法,不小心会有越界异常。现实现一个没抛出越界异常,越界就返回null,不过直接返回的再用其它方法,可能有Null异常。现还实现可以负index的,可能逆向的。package com.chenlb.util;public class StringUtil { /** * start与end均可负数<br/> * start &...
2008-06-18 14:36:24 195
提供"Hadoop分布式文件系统:架构和设计要点(翻译)"下载
网上找到这方面的资料,javaeye也有这个帖子 ,想学习这方面的知识,虽然网上很容易找到这方面的资料,但我还是把它上传来与感兴趣的javaeye友一起学习。...
2008-06-12 17:26:12 104
curl 简单介绍
前段时间学习Linux命令,偶然发现curl命令很有用。这里简单介绍下。网络上部分解析是:curl是一个利用URL语法在命令行方式下工作的文件传输工具。 它可以取得有规律的url的内容。比如:http://www.example.com/001.html 到 http://www.example.com/100.html ,它有一种表达式可以这些内容下载下来,这功能绝对比迅雷强,迅雷...
2008-06-12 10:12:18 160
Windows网络命令行程序
Windows网络命令行程序 ipconfig /all 查看配置 ipconfig /renew 刷新配置 ipconfig 管理 DNS 和 DHCP 类别 ID Ping 测试连接 Arp 解决硬件地址问题 nbtstat 解决 NetBIOS 名称问题 netstat 显示连接统计 tracert 跟踪网络连接 pathping 测试路由器...
2008-06-06 15:18:44 134
Tomcat 内存调优
今天运行下程序,报错说“内存不够”。在Tomcat可以扩大JVM的内存栈呢?然后看那bin目录下启动文件,找到catalina.bat文件的JAVA_OPTS(大概在103行,5.5.X),在再添加一个set JAVA_OPTS参数即可如: set JAVA_OPTS=%JAVA_OPTS% -Xms100m -Xmx512m ...
2008-06-05 20:54:29 164
java -D参数简化加入多个jar
java命令引入jar时可以-cp参数,但时-cp不能用通配符(多个jar时什么烦要一个个写,不能*.jar),面通常的jar都在同一目录,且多于1个。前些日子找到(发现)-Djava.ext.dirs太好。如:java -Djava.ext.dirs=lib MyClass...
2008-05-30 11:22:40 444
博客搬家到javaeye
开始写博客是在blogjava里。它的稳定、简洁、文档编辑强等吸引我。但久而久之发现,写的博客文章很少有互动性(我没有发布到blogjava主页上)。我觉得写的技术相关的文章要与大家交流才比较有意思,技术才有更好的进步。 我也在javaeye注册了好久了,而javaeye高手很多,文章质量也高,与大家讨论问题,一起学习才比较有意思。所以决定把博客搬到javaeye里。 与大...
2008-05-26 20:18:49 113
Javascript XSLT 处理XML文件(IE and Firefox)
javascript xslt 处理xml备忘录。支持firefox。参考:w3school XSLT - 客户端 http://www.w3school.com.cn/xsl/xsl_client.asp如何使用Javascript XSLT 处理XML文件 http://java.chinaitlab.com/advance/533787.html1.xml文件,cdcatalog.x...
2008-05-18 19:02:00 147
[原]自己实现的优先队列 PriorityQueue
java库里的PriorityQueue无法满足我,它不能固定容量,不遍历(遍历后就无序了),它的排序因字是从小到大(虽然可以用Comparator来反转大小顺序)。我所要的是可以固定容量(在一大堆数据通信中选择最大或最小的几个数时很有用),可遍历(不是一个个poll())。 于是,在有空的时间里写了一下。内容是一个双向链表(带头的,头不作保存数据),用插入排序。个人认为一个个添加的...
2008-05-08 23:08:00 165
dns server on centos
想到局域网上建一个dns服务器,昨天晚上搞了好久都不成,包括今天也发了好多时间也不能通过.最后找到 秋水小筑之Blog http://blog.chinaunix.net/u/5302/showart_238337.html的博客, 帮了大忙,网上的很多文章都试过了都没有很好的结果.我安装的centos是单CD的服务版本.安装后已经有bind了1.配置文件在/etc/name...
2008-05-02 20:46:00 128
lighttpd and tomcat
昨天安装好了lighttpd,现在想试下与tomcat的一起工作。把所有的*.jsp让tomcat去处理。用到lighttpd的代理,lighttpd与tomcat比apache与tomcat要简单多。开始喜欢上了lighttpd。修改lighttpd的配置# vi /usr/local/lighttpd-1.4.19/lighttpd.conf去掉mod_proxy注释server...
2008-05-02 00:03:00 156
php install on lighttpd linux(centos)
近几日都想玩下服务器。此文是在linux下的lighttpd安装php。参考疯狂的鼠标 的博客: http://blog.csdn.net/shined_zhang/archive/2007/10/28/1852349.aspx1.安装lighttpd看http://www.blogjava.net/chenlb/archive/2008/04/30/197617.html2.安装mysq...
2008-05-01 16:48:00 103
开放 linux 防火墙 端口
想搭个服务器,但外面访问不到,是防火墙的原因,把端口设置一下就行。1.在/etc/sysconfig/iptables里添加-A RH-Firewall-1-INPUT -m state --state NEW -m tcp -p tcp --dport 8080 -j ACCEPT2.重启iptables[root@localhost ~]# /etc/init.d...
2008-05-01 14:14:00 120
centos 配置 ssh
在VMware安装一个CentOS的Sever版,终端里的内容不可滚动,不方便。在win下远程登录不错(win下有个Xshell)。默认安装ssh是有的。只是hosts访问问题。1.在hosts.deny文件尾添加sshd:ALL意思是拒绝所有访问请求[root@localhost ~]# vi /etc/hosts.deny修改后看起来如下:## hosts.de...
2008-05-01 10:13:00 98
lighttpd url 映射
2008-07-04
怎么只能用浏览器才有访问页面?
2008-06-25
TA创建的收藏夹 TA关注的收藏夹
TA关注的人