庖丁解牛 中文分词 版本号 2.0.1
---------------------------------------------------
相对2.0.0版本变更如下:
[b]重构(!)[/b]:
svn上的代码和字典从原来的GBK编码转化为UTF-8编码(使用Eclipse下载代码的同学需要改变工程的encoding)
->从统计上,更多人使用UTF-8而非GBK,故改之;望谅。
[b]重构(!)[/b]:
重构PaodingMaker使调用make获取Paoding对象,一个配置文件默认只会产生一个Paoding(通过记录文件的绝对路径并记录之实现)
->2.0.0如果多次调用PaodingMaker.make会多次载入词典,虽然这是有意的。2.0.1不必有如此担心了,同一个配置文件的Paoding不会多次创建。
[b]重构(!)[/b]:
重构PaodingMaker使可以调用多次make方法根据不同配置文件(类路径或普通文件路径)产生不同的Paoding
->这个特性目的是为了支持根据不同的应用场合扩招Paoding的分词针对性(庖丁能够根据配置不同的Knife而具有完全不同的分词效果)
->2.0.0不能同时根据不同的配置文件产生Paoding对象
[b]重构[/b]:
删除几乎无用的net.paoding.dictionary.support.Util类(其中有一个函数被move到其他位置)
[b]重构[/b]:
增加Constants接口记录配置文件中配置项的name
[b]增强[/b]:
当指定的词典安装目录或其子目录下没有任何词典文件时,抛出PaodingAnalysisException,并提示:Not found any dictionary files, have you set the 'paoding.dic.home' right?
[b]增强[/b]:
可以在配置文件中指定字符集读取字典文件,如果没有配置则使用UTF-8。配置项名为paoding.dic.charset
[b]增强[/b]:增加build.xml文件
[b]错误[/b]:
当没有noiseWord、noiseCharactor、unit、confucianFamilyName等特定词典时无法使用,应为忽略之而正常使用
[b]错误[/b]:
非词典直接目录下的设置词典忽略前缀无效
[b]错误[/b]:
将错误的命名paoding-analy[s]is.jar纠正为paoding-analysis.jar
之前jar命名少了中括号标注的字母
---------------------------------------------------
任务表(还未实现的任务)
1、繁简体的支持[优先级:中]
2、动态转载变更的词典[优先级:高]
3、针对高级使用者的文档[优先级:低]
---------------------------------------------------
示例:
请参考:[url=http://groups.google.com/group/paoding/browse_thread/thread/9771c8d495786fee]庖丁解牛 2.0.0版本发布 [/url]之《"庖丁解牛" 使用指南》
---------------------------------------------------
相关地址
svn地址:[url]http://paoding.googlecode.com/svn/trunk/paoding-analysis[/url]
zip下载:[url]http://code.google.com/p/paoding/downloads/list[/url]
论 坛:[url]http://groups.google.com/group/paoding[/url]
JavaEye:[url]http://analysis.group.iteye.com/[/url]
---------------------------------------------------
相对2.0.0版本变更如下:
[b]重构(!)[/b]:
svn上的代码和字典从原来的GBK编码转化为UTF-8编码(使用Eclipse下载代码的同学需要改变工程的encoding)
->从统计上,更多人使用UTF-8而非GBK,故改之;望谅。
[b]重构(!)[/b]:
重构PaodingMaker使调用make获取Paoding对象,一个配置文件默认只会产生一个Paoding(通过记录文件的绝对路径并记录之实现)
->2.0.0如果多次调用PaodingMaker.make会多次载入词典,虽然这是有意的。2.0.1不必有如此担心了,同一个配置文件的Paoding不会多次创建。
[b]重构(!)[/b]:
重构PaodingMaker使可以调用多次make方法根据不同配置文件(类路径或普通文件路径)产生不同的Paoding
->这个特性目的是为了支持根据不同的应用场合扩招Paoding的分词针对性(庖丁能够根据配置不同的Knife而具有完全不同的分词效果)
->2.0.0不能同时根据不同的配置文件产生Paoding对象
[b]重构[/b]:
删除几乎无用的net.paoding.dictionary.support.Util类(其中有一个函数被move到其他位置)
[b]重构[/b]:
增加Constants接口记录配置文件中配置项的name
[b]增强[/b]:
当指定的词典安装目录或其子目录下没有任何词典文件时,抛出PaodingAnalysisException,并提示:Not found any dictionary files, have you set the 'paoding.dic.home' right?
[b]增强[/b]:
可以在配置文件中指定字符集读取字典文件,如果没有配置则使用UTF-8。配置项名为paoding.dic.charset
[b]增强[/b]:增加build.xml文件
[b]错误[/b]:
当没有noiseWord、noiseCharactor、unit、confucianFamilyName等特定词典时无法使用,应为忽略之而正常使用
[b]错误[/b]:
非词典直接目录下的设置词典忽略前缀无效
[b]错误[/b]:
将错误的命名paoding-analy[s]is.jar纠正为paoding-analysis.jar
之前jar命名少了中括号标注的字母
---------------------------------------------------
任务表(还未实现的任务)
1、繁简体的支持[优先级:中]
2、动态转载变更的词典[优先级:高]
3、针对高级使用者的文档[优先级:低]
---------------------------------------------------
示例:
请参考:[url=http://groups.google.com/group/paoding/browse_thread/thread/9771c8d495786fee]庖丁解牛 2.0.0版本发布 [/url]之《"庖丁解牛" 使用指南》
---------------------------------------------------
相关地址
svn地址:[url]http://paoding.googlecode.com/svn/trunk/paoding-analysis[/url]
zip下载:[url]http://code.google.com/p/paoding/downloads/list[/url]
论 坛:[url]http://groups.google.com/group/paoding[/url]
JavaEye:[url]http://analysis.group.iteye.com/[/url]