![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
segment
普通网友
这个作者很懒,什么都没留下…
展开
-
斯坦福分词有无词库对比
斯坦福分词安装 下载斯坦福分词工具包,下载地址 http://nlp.stanford.edu/software/stanford-segmenter-2014-06-16.zip 分词使用命令行(注意编码设置成utf8),亲测有效。 http://blog.csdn.net/dushenzhi/article/details/8734173 Stanford分词使用条件随机场。...转载 2017-10-24 12:47:23 · 562 阅读 · 0 评论 -
MMseg进行机械分词
MMseg下载地址https://github.com/chenlb/mmseg4j-core在myEclipse下面创建一个Java工程 然后把D:\工作\mmseg4j-core-master\mmseg4j-core-master\src\main\java下面的文件和文件夹拷贝到src下面 然后把lib下面添加junit.jar并且BuildPath 拷入数据D:\工作\mmseg4j原创 2017-10-26 17:32:30 · 333 阅读 · 0 评论 -
使用pyltp对分词后的结果进行词性标记
当我们使用其他分词工具进行分词之后,我们可以使用pyltp对已经分词后的语句进行词性标注。from pyltp import Postagger def posttagger(words): postagger = Postagger() postagger.load("/home/liusenubuntu/program/ltp_data/pos.model") postt原创 2017-12-27 10:46:08 · 2377 阅读 · 0 评论 -
中科院分词系统学习
http://blog.csdn.net/MebiuW/article/details/52232562?locationNum=12转载 2017-12-27 13:24:05 · 233 阅读 · 0 评论 -
stanford命令行进行词性标注
https://www.cnblogs.com/kaituorensheng/p/3600137.html转载 2017-12-27 14:55:59 · 766 阅读 · 0 评论 -
pynlpir进行分词
中科院分词系统学习http://blog.csdn.net/hongliryan/article/details/54577670点击运行会出现下面的错误。Not valid license or your license expired! Please feel free to contact pipy_zhang@msn.com! 错误原因是分词系统授权过期打开NLPIR官网,下载最新版分词器...转载 2018-03-12 13:50:41 · 1363 阅读 · 0 评论 -
lucene学习
lucene全文检索整体架构了解如下:lucene介绍IK分词介绍IK分词详细介绍lucene的思考:1.使用分词对文本进行分词(去除停用词,细粒度分词找到尽可能多的词语)。2.对词库按照文档的id建立索引。3.对新的搜索记性分词,并且找到索引。...转载 2018-03-22 13:40:36 · 128 阅读 · 0 评论 -
Python实现基于最大长度的正向最大值匹配算法
正向最大值匹配算法不能处理数字和字母问题,这里添加对数字和字母的处理,连续的数字和字母作为一个词进行处理,但是还会出现一些问题,例如出现英文连接符的问题,例如有些手术名字为英文和中文的组合(手部V-Y型皮瓣手术)。# -*- coding: utf-8 -*- import re file=open("/home/liusenubuntu/file/segment/newdict.txt","r",原创 2017-11-28 10:39:08 · 2134 阅读 · 0 评论 -
stanfordNLP中文java+maven构建测试
亲测有效http://blog.csdn.net/a398942089/article/details/53048189转载 2017-08-09 11:15:12 · 599 阅读 · 0 评论