java的segment_WordSegment 中文分词,Java版本,词库已经包括,安装JDK后直接运行里面的 . 就行了 Develop 238万源代码下载- www.pudn.com...

文件名称: WordSegment891ea1e7dab975064c6bfd22796603ae.gif下载

  收藏√  [443d104427974206832dc4b12407db70.gif

 5  4  3  2  1 fb9128a58cbeaabbeb3718ed75079ccf.gif]

开发工具: Java

文件大小: 323 KB

上传时间: 2014-05-02

下载次数: 8

提 供 者: 洛书

详细说明:中文分词,Java版本,词库已经包括,安装JDK后直接运行里面的WordSegment.java就行了。-Chinese Segment of Java, contains dictionary.It is OK that execute the WordSegment.java after install JDK.

文件列表(点击判断是否您需要的文件,如果是垃圾请在下面评价投诉):

WordSegment\.classpath

...........\.project

...........\.settings\org.eclipse.jdt.core.prefs

...........\bin\dictionaryAdder\DicAdderTest.class

...........\...\...............\Dictionary.class

...........\...\WordSegment\BMM.class

...........\...\...........\DicAdder.class

...........\...\...........\Dictionary.class

...........\...\...........\FMM.class

...........\...\...........\SegStrategy.class

...........\...\...........\WordSegment.class

...........\...\...........Frame\WordSegFrame.class

...........\dic.dat

...........\dic1.dat

...........\src\dictionaryAdder\DicAdderTest.java

...........\...\...............\Dictionary.java

...........\...\WordSegment\BMM.java

...........\...\...........\DicAdder.java

...........\...\...........\Dictionary.java

...........\...\...........\FMM.java

...........\...\...........\SegStrategy.java

...........\...\...........\WordSegment.java

...........\...\...........Frame\WordSegFrame.java

...........\test1.txt

...........\bin\dictionaryAdder

...........\...\WordSegment

...........\...\WordSegmentFrame

...........\src\dictionaryAdder

...........\...\WordSegment

...........\...\WordSegmentFrame

...........\.settings

...........\bin

...........\src

WordSegment

输入关键字,在本站238万海量源码库中尽情搜索:

帮助

[lucenesegment.rar] - lucene中文分词源码,做搜索引擎需要用到的好东西哦

[ansj_seg-master.zip] - 这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化

内存中中文分词每秒钟大约100万字(速度上已经超越ictclas)

文件读取分词每秒钟大约30万字

准确率能达到96 以上

[segmenter.zip] - 一个简单有效的中文分词算法,包含正向最大匹配算法,java实现。

[AutoClass.rar] - 自动中文智能分词,一分钟可达2000000詞

[tokenizer_and_compute_frequency.rar] - 思路:将文件逐行读入,然后用StringTokenizer进行处理,将一个个word以(名称,出现次数)存入hashmap,依次统计如果出现多次出现次数递加,文件全部处理完后再读出,这样就算出了词频

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值