- 博客(3)
- 资源 (2)
- 收藏
- 关注
原创 中文分词字典的序列化
...接上回有的时候真的很羡慕写JAVA的,反正我自己是没有接触过了。(虽然我会点JAVASCRIPT,可惜地球人都知道,这是两个完全不同的东西。)根据网上查找“DELPHI对象序列化”的结果,好像是在JAVA里面可以将自定义对象直接保存成物理文件(序列化)。可惜DELPHI里面不能,或者是我没找到方法,或者是因为需要的时间太多,总之是怎么简单、这么快就怎么来了。所以决定自己再写一段代码,将转
2008-03-30 00:46:00 610
原创 中文分词字典的设计
用DELPHI做一个东西,希望能自动将一篇中文文章中出现比较多(词频)、内容比较重要(权重)的单词自动的切分出来(中文分词)。自己写出来一段代码,思路是这样的:1.首先将分词字典用HashStringList载入,用Hash查找比较快。2.将所有的标点符号都看成分隔符。(具体实现是将所有中英文的标点符号都替换成换行回车,然后对每一行进行中文分词)3.对每一个句子进行中文分词。具体实现是,3
2008-03-30 00:20:00 1167
原创 TPerlRegEx中匹配中文标点符号
最近在用delphi7写一些东西,需要用到正则表达式。以前做网页的时候,一直用 JavaScript/VBScript里面的正则表达式。昨天换了TPerlRegEx用,感觉真的很有些不习惯。本来要写一个匹配中文标点符号的,匹配英文代码如下 FRe:=TPerlRegEx.Create(nil); FRe.Subject:=Str; FRe.RegEx:=[`!@#/$%/^&/*/(/)
2008-03-25 11:55:00 1138
SCWS繁体中文分词辞典txt格式
2008-03-15
SCWS简体中文分词辞典txt格式
2008-03-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人