- 博客(10)
- 收藏
- 关注
转载 pyhanlp 繁简转换之拼音转换与字符正则化
繁简转换HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。·说明· HanLP能够识别简繁分歧词,比如打印机=印表機。许多简繁转换工具不能区分“以后”“皇后”中的两个“后”字,HanLP可以。·算法详解· 《汉字转拼音与简繁转换的Java实现》...
2019-06-28 09:16:39 246
转载 中文分词工具之基于字标注法的分词
基于字标注法的分词中文分词字标注通常有2-tag,4-tag和6-tag这几种方法,其中4-tag方法最为常用。标注集是依据汉字(其中也有少量的非汉字字符)在汉语词中的位置设计的。1. 2-tag法 2-tag是一种最简单的标注方法,标注集合为{B,I},其将词首标记设计为B,而将词的其他位置标记设计为I。例如词语“重庆”的标注结果是“重/B 庆/I”,而“大学生”的标注结果为“大/B...
2019-06-26 09:34:20 719
转载 自然语言处理工具中的中文分词器介绍
中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性,句法树等模块的效果,当然分词只是一个工具,场景不同,要求也不同。在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言。基于词典分词算法基于词典分词算法,也称...
2019-06-24 09:52:14 389
转载 Ansj与hanlp分词工具对比
一、Ansj1、利用DicAnalysis可以自定义词库:2、但是自定义词库存在局限性,导致有些情况无效:比如:“不好用“的正常分词结果:“不好,用”。(1)当自定义词库”好用“时,词库无效,分词结果不变。(2)当自定义词库“不好用”时,分词结果为:“不好用”,即此时自定义词库有效。3、由于版本问题,可能DicAnalysis, ToAnalysi...
2019-06-21 11:58:17 775
转载 python使用jieba实现中文文档分词和去停用词
分词工具的选择: 现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。分词前的准备:待分词的中文文档存放分词之后的结果文档中文停用词文档(用于去停用词,在网上可以找到很多)分词之后...
2019-06-19 09:53:52 4064 2
转载 Hanlp配置自定义词典遇到的问题与解决方法
本文是整理了部分网友在配置hanlp自定义词典时遇到的一小部分问题,同时针对这些问题,也提供另一些解决的方案以及思路。这里分享给大家学习参考。要使用hanlp加载自定义词典可以通过修改配置文件hanlp.properties来实现。要注意的点是:1.root根路径的配置:hanlp.properties中配置如下:#本配置文件中的路径的根目录,根目录+其他路径=完整路径(支持相...
2019-06-17 09:40:50 1970
转载 HanLP-分类模块的分词器介绍
最近发现一个很勤快的大神在分享他的一些实操经验,看了一些他自己关于hanlp方面的文章,写的挺好的!转载过来分享给大家!以下为分享原文(无意义的内容已经做了删除)如下图所示,HanLP的分类模块中单独封装了适用分类的分词器,当然这些分词器都是对HanLP提供的分词器的封装。分类模块中提供的分词器都在tokenizer包中。包括:BigramTokenizer这是一个2gram分词器,也就是...
2019-06-14 09:54:19 985
转载 elasticsearch教程--中文分词器作用和使用
概述 本文都是基于elasticsearch安装教程 中的elasticsearch安装目录(/opt/environment/elasticsearch-6.4.0)为范例环境准备·全新最小化安装的centos 7.5·elasticsearch 6.4.0认识中文分词器在博文elasticsearch分词器中提到elasticsearch能够快速的通过搜索词检索出...
2019-06-12 09:00:17 467
原创 HanLP-最短路径分词
今天介绍的内容是最短路径分词。最近换回了thinkpad x1,原因是mac的13.3寸的屏幕看代码实在是不方便,也可能是人老了吧,^_^。等把HanLP词法分析介绍结束后,还是会换回macbook pro的。个人有强迫症,只要看或写Java或C/C++代码或者用开发机的化,还是喜欢在windows下工作。看论文特别是理论的研究还是习惯用mac了。感觉开发还是windows比较顺手,理论研究...
2019-06-05 10:27:10 366
转载 史上最全中文分词工具整理
一.中文分词二.准确率评测:THULAC:与代表性分词软件的性能对比我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(The SecondInternational Chinese Word Segmentation Bakeof...
2019-06-03 10:15:00 568 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人