java中文分词检索_搜索引擎之中文分词实现（java版）

最新推荐文章于 2022-07-07 10:40:05 发布

辛载阳

最新推荐文章于 2022-07-07 10:40:05 发布

阅读量1.1k

点赞数

文章标签： java中文分词检索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36293915/article/details/114234480

版权

前几天读到google研究员吴军的数学之美系列篇，颇有感触。而恰好自己前段时间做了个基于统计语言模型的中文切分系统的课程项目，于是乎，帖出来与大家共同学习。

分词技术在搜索引擎，信息提取，机器翻译等领域的重要地位与应用就不敖述了。步入正题：)

一、项目概述

本切分系统的统计语料是用我们学校自己开放的那部分，大家可以在这里下载，中文字符约184万，当然这都是已切分好了的，可以用此建立一个比较小的语料库。本系统我主要分下面四个步骤完成：

1、语料预处理

2、建立 2-gram(统计二元模型)

3、实现全切分

4、评估测试

下面我分别对这四个方面一一道来。

1、语料预处理

下载的已切分的语料都是形如“19980131-04-012-001/m 现实/n 的/u 顿悟/vn 却/d 被/p 描/v 出/v 形/Ng 来/v 。/w ” ，有的前面还保留了日期编号，因为这些切分语料的来源是人民日报。预处理主要是按标点符号分句，句子简单定义为( 。？！：；)这五种标点符号结尾的词串，句子首尾分别添加和这两个表示句子开始和结束的标记，这在2-gram建模时要用的，后面会提到。处理过程中，忽略词类信息和前面的日期信息，因为我这个切分系统不考虑词类标注。如前面这句预处理后应该为下面形式 “现实的顿悟却被描出形来。” ，当然切分词之间你可以用你想用的符号标记，而不必是空格。因为考虑到所有的英文字符和数字的ASCII，我用了下面方法实现之：

out ; //输出流

in; //输入流

StringBuffer s1 = new StringBuffer(); //缓冲

char a = in.read();

while (a != -1) //判断是否已到流的终点

...{

if ((a == '。' || a == '？' || a == '！' || a == '：' || a == '；' )) //一句结束

...{

String s2 = new String(s1);

out.write("");

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
java中文分词检索_搜索引擎之中文分词实现（java版）

前几天读到google研究员吴军的数学之美系列篇，颇有感触。而恰好自己前段时间做了个基于统计语言模型的中文切分系统的课程项目，于是乎，帖出来与大家共同学习。分词技术在搜索引擎，信息提取，机器翻译等领域的重要地位与应用就不敖述了。步入正题：)一、项目概述本切分系统的统计语料是用我们学校自己开放的那部分，大家可以在这里下载，中文字符约184万，当然这都是已切分好了的，可以用此建立一个比较小的语...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。