PyHanLP
Pyhanlp与hanlp的部分内容,包括pyhanlp的user guide,为本人编写,由hanlp原作者推荐。
Font Tian
某公司山东分公司研发中心主管。目前主要工作为ABC融合,主要业余目标为发论文,玩开源。
展开
-
pyhanlp 共性分析与短语提取
简介HanLP中的词语提取是基于互信息与信息熵。想要计算互信息与信息熵有限要做的是 文本分词进行共性分析。在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。共性分析“”"一阶共性分析,也就是词频统计信息=1先进=1图像=1二阶共性分析信息→算法= tf=1 mi=8.713143111007891 le=0.0 re=0...原创 2018-09-23 19:23:01 · 3981 阅读 · 7 评论 -
pyhanlp 命名实体识别
pyhanlp中的命名实体识别对于分词而言,命名实体识别是一项非常重要的功能,当然发现新词同样重要(这部分内容被我放在之后的“关键词、短语提取与自动摘要、新词识别”与再之后的案例中了。首先是一个简单的例子,展示一下命名实体识别的效果。之后是正式内容:简单的展示例子from pyhanlp import *"""HanLP开启命名实体识别""&quo原创 2020-09-15 17:25:45 · 6756 阅读 · 7 评论 -
pyhanlp 停用词与用户自定义词典
hanlp的词典模式之前我们看了hanlp的词性标注,现在我们就要使用自定义词典与停用词功能了,首先关于HanLP的词性标注方式具体请看HanLP词性标注集。其核心词典形式如下:自定义词典自定义词典有多种添加模式,首先是展示的一个小例子,展示了词汇的动态增加与强行插入,删除等。更复杂的内容请参考后边的第二段代码。简单的例子from pyhanlp import *text = "...原创 2018-09-20 21:35:02 · 7729 阅读 · 1 评论 -
pyhanlp 分词与词性标注
pyhanlp中的分词器简介pyhanlp实现的分词器有很多,同时pyhanlp获取hanlp中分词器也有两种方式第一种是直接从封装好的hanlp类中获取,这种获取方式一共可以获取五种分词器,而现在默认的就是第一种维特比分词器维特比 (viterbi):效率和效果的最佳平衡双数组trie树 (dat):极速词典分词,千万字符每秒(可能无法获取词性,此处取决于你的词典)条件随机场 (cr...原创 2018-09-20 19:35:49 · 7922 阅读 · 11 评论 -
实例使用pyhanlp创建中文词云
使用pyhanlp创建词云去年我曾经写过一篇文章Python + wordcloud + jieba 十分钟学会用任意中文文本生成词云(你可能觉得这和wordcloud中官方文档中的中文词云的例子代码很像,不要误会,那个也是我写的)现在我们可以仿照之前的格式在写一份pyhanlp版本的。对于wordcloud而言,因为原生支持的英文是自带空格的,所以我们这里需要的是进行分词和去停处理,然后将...原创 2018-09-25 22:18:51 · 1531 阅读 · 0 评论 -
pyhanlp 文本聚类
文本聚类文本聚类简单点的来说就是将文本视作一个样本,在其上面进行聚类操作。但是与我们机器学习中常用的聚类操作不同之处在于。我们的聚类对象不是直接的文本本身,而是文本提取出来的特征。因此如何提取特征因而是非常重要的一步。在HanLP中一共有三个文本聚类方法。前两种都基于词袋模式,第一个是最常见的聚类算法:k-means,但HanLP不光实现了k-means,还实现了速度更快效果更好的repeat...原创 2018-09-25 21:27:15 · 2057 阅读 · 0 评论 -
pyhanlp 文本分类与情感分析
这一次我们需要利用HanLP进行文本分类与情感分析。同时这也是pyhanlp用户指南的倒数第二篇关于接口和Python实现的文章了,再之后就是导论,使用技巧汇总和几个实例落。真是可喜可贺啊。文本分类在HanLP中,文本分类与情感分析都是使用一个分类器,朴素贝叶斯分类器。或许这个分类器还算是比较一般。但是因为计算文本内容时,底层依旧使用word2vec,所以其表现出来的性能还是相当不错的。原作...原创 2018-09-24 20:26:45 · 6472 阅读 · 17 评论 -
pyhanlp 文本推荐,同义改写,语义距离
文本推荐该部分的内容之所以在一起是因其底层原理相同。文本推荐,语义距离,同义改写等都是基于word2vec的。因为作者HanLP源代码和博客都没有写该部分的原理。所以笔者大概查看了源码,发现功能实现原理非常之简单,就是根据文档与给定单词的距离进行打分,而这个语义距离就是从word2vec来的。熟悉word2vec的同学听到这里应该也就明白其内部运行的原理了吧。这里的文本推荐属于。句子级别,从一...原创 2018-09-24 18:00:28 · 4466 阅读 · 10 评论 -
pyhanlp 两种依存句法分类器
依存句法分析器在HanLP中一共有两种句法分析器依存句法分析基于神经网络的高性能依存句法分析器MaxEnt依存句法分析基于神经网络的高性能依存句法分析器HanLP中的基于神经网络的高性能依存句法分析器参考的是14年Chen&Manning的论文(A Fast and Accurate Dependency Parser using Neural Networks),这...原创 2018-09-24 13:40:47 · 4923 阅读 · 0 评论 -
pyhanlp 繁简转换,拼音转换与字符正则化
繁简转换HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。说明HanLP能够识别简繁分歧词,比如打印机=印表機。许多简繁转换工具不能区分“以后”“皇后”中的两个“后”字,HanLP可以。算法详解《汉字转拼音与简繁转换的Java实现》from pyhan...原创 2018-09-24 13:39:17 · 1582 阅读 · 0 评论 -
pyhanlp 词性标注(正篇)
词性标注在HanLP的readme中有这样的一段话词性标注HMM词性标注(速度快)感知机词性标注、CRF词性标注(精度高)在之前的分词部分,我们已经发现了,在分词器中,默认是开启词性标注的,甚至想要获得没有词性标注的list还需要使用, HanLP.Config.ShowTermNature = False语句或者想办法从term_list中获取term.word。但是在Ha...原创 2018-09-23 20:28:02 · 3896 阅读 · 14 评论 -
pyhanlp 提取关键词、自动摘要
关键词提取说明内部采用TextRankKeyword实现,用户可以直接调用TextRankKeyword.getKeywordList(document, size)算法详解《TextRank算法提取关键词的Java实现》部分内容如下谈起自动摘要算法,常见的并且最易实现的当属TF-IDF,但是感觉TF-IDF效果一般,不如TextRank好。TextRank是在Goo...原创 2018-09-21 21:48:22 · 6793 阅读 · 9 评论