
剑指汉语自然语言处理
文章平均质量分 78
深度学习方兴未艾,冲击着各个领域,自然语言处理技术也在大潮中开始了再一次的扬帆起航.
又一个大航海时代到了,走,出海去.
Font Tian
某公司山东分公司研发中心主管。目前主要工作为ABC融合,主要业余目标为发论文,玩开源。
展开
-
文本分类中的离群值特征
对于小规模数据集,可以使用文本长度统计或词向量相似度分析快速检测异常样本。对于大规模和高维数据集,可以使用自动编码器或主题建模分析发现语义离群值。高级方法如BERT 嵌入向量和更适合复杂文本分布的离群值检测。根据具体任务需求选择合适的检测和处理方法,有助于提高模型的鲁棒性和分类性能。原创 2025-01-03 16:31:26 · 639 阅读 · 0 评论 -
PyTorch 深度学习: 60 分钟极速入门
PyTorch 深度学习: 60 分钟极速入门2019年年初,ApacheCN组织志愿者翻译了PyTorch1.2版本中文文档(github地址),同时也获得了PyTorch官方授权,我相信已经有许多人在中文文档官网上看到了。不过目前校对还缺人手,希望大家踊跃参与。之前一段时间我们和PyTorch的有关负责人Bruce Lin一直在进行邮件交流。在之后适当的时候,我们会组织志愿者进行其他有关Py...翻译 2019-11-15 13:28:28 · 757 阅读 · 0 评论 -
使用PyTorch训练图像分类器
训练分类器译者:bat67校对者:FontTian目前为止,我们以及看到了如何定义网络,计算损失,并更新网络的权重。所以你现在可能会想,数据应该怎么办呢?通常来说,当必须处理图像、文本、音频或视频数据时,可以使用python标准库将数据加载到numpy数组里。然后将这个数组转化成torch.*Tensor。对于图片,有Pillow,OpenCV等包可以使用对于音频,有scipy...翻译 2019-11-15 13:02:43 · 962 阅读 · 0 评论 -
pyhanlp 文本分类与情感分析
这一次我们需要利用HanLP进行文本分类与情感分析。同时这也是pyhanlp用户指南的倒数第二篇关于接口和Python实现的文章了,再之后就是导论,使用技巧汇总和几个实例落。真是可喜可贺啊。文本分类在HanLP中,文本分类与情感分析都是使用一个分类器,朴素贝叶斯分类器。或许这个分类器还算是比较一般。但是因为计算文本内容时,底层依旧使用word2vec,所以其表现出来的性能还是相当不错的。原作...原创 2018-09-24 20:26:45 · 6812 阅读 · 17 评论 -
pyhanlp 文本推荐,同义改写,语义距离
文本推荐该部分的内容之所以在一起是因其底层原理相同。文本推荐,语义距离,同义改写等都是基于word2vec的。因为作者HanLP源代码和博客都没有写该部分的原理。所以笔者大概查看了源码,发现功能实现原理非常之简单,就是根据文档与给定单词的距离进行打分,而这个语义距离就是从word2vec来的。熟悉word2vec的同学听到这里应该也就明白其内部运行的原理了吧。这里的文本推荐属于。句子级别,从一...原创 2018-09-24 18:00:28 · 4645 阅读 · 10 评论 -
多版本中文停用词词表 + 多版本英文停用词词表 + python词表合并程序
文章简介如果你只想获取中文停用词此表,请直接到文章结尾下载项目文件,本博文及链接会定期更新:最近更新2017/07/04第二次更新原创 2017-07-03 15:13:15 · 21456 阅读 · 13 评论 -
pyhanlp 繁简转换,拼音转换与字符正则化
繁简转换HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。说明HanLP能够识别简繁分歧词,比如打印机=印表機。许多简繁转换工具不能区分“以后”“皇后”中的两个“后”字,HanLP可以。算法详解《汉字转拼音与简繁转换的Java实现》from pyhan...原创 2018-09-24 13:39:17 · 1649 阅读 · 0 评论 -
pyhanlp 两种依存句法分类器
依存句法分析器在HanLP中一共有两种句法分析器依存句法分析基于神经网络的高性能依存句法分析器MaxEnt依存句法分析基于神经网络的高性能依存句法分析器HanLP中的基于神经网络的高性能依存句法分析器参考的是14年Chen&Manning的论文(A Fast and Accurate Dependency Parser using Neural Networks),这...原创 2018-09-24 13:40:47 · 5022 阅读 · 0 评论 -
pyhanlp 共性分析与短语提取
简介HanLP中的词语提取是基于互信息与信息熵。想要计算互信息与信息熵有限要做的是 文本分词进行共性分析。在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。共性分析“”"一阶共性分析,也就是词频统计信息=1先进=1图像=1二阶共性分析信息→算法= tf=1 mi=8.713143111007891 le=0.0 re=0...原创 2018-09-23 19:23:01 · 4099 阅读 · 7 评论 -
pyhanlp 词性标注(正篇)
词性标注在HanLP的readme中有这样的一段话词性标注HMM词性标注(速度快)感知机词性标注、CRF词性标注(精度高)在之前的分词部分,我们已经发现了,在分词器中,默认是开启词性标注的,甚至想要获得没有词性标注的list还需要使用, HanLP.Config.ShowTermNature = False语句或者想办法从term_list中获取term.word。但是在Ha...原创 2018-09-23 20:28:02 · 4009 阅读 · 14 评论 -
pyhanlp 分词与词性标注
pyhanlp中的分词器简介pyhanlp实现的分词器有很多,同时pyhanlp获取hanlp中分词器也有两种方式第一种是直接从封装好的hanlp类中获取,这种获取方式一共可以获取五种分词器,而现在默认的就是第一种维特比分词器维特比 (viterbi):效率和效果的最佳平衡双数组trie树 (dat):极速词典分词,千万字符每秒(可能无法获取词性,此处取决于你的词典)条件随机场 (cr...原创 2018-09-20 19:35:49 · 8280 阅读 · 11 评论 -
pyhanlp 停用词与用户自定义词典
hanlp的词典模式之前我们看了hanlp的词性标注,现在我们就要使用自定义词典与停用词功能了,首先关于HanLP的词性标注方式具体请看HanLP词性标注集。其核心词典形式如下:自定义词典自定义词典有多种添加模式,首先是展示的一个小例子,展示了词汇的动态增加与强行插入,删除等。更复杂的内容请参考后边的第二段代码。简单的例子from pyhanlp import *text = "...原创 2018-09-20 21:35:02 · 7917 阅读 · 1 评论 -
pyhanlp 命名实体识别
pyhanlp中的命名实体识别对于分词而言,命名实体识别是一项非常重要的功能,当然发现新词同样重要(这部分内容被我放在之后的“关键词、短语提取与自动摘要、新词识别”与再之后的案例中了。首先是一个简单的例子,展示一下命名实体识别的效果。之后是正式内容:简单的展示例子from pyhanlp import *"""HanLP开启命名实体识别""&quo原创 2020-09-15 17:25:45 · 6961 阅读 · 7 评论 -
pyhanlp 提取关键词、自动摘要
关键词提取说明内部采用TextRankKeyword实现,用户可以直接调用TextRankKeyword.getKeywordList(document, size)算法详解《TextRank算法提取关键词的Java实现》部分内容如下谈起自动摘要算法,常见的并且最易实现的当属TF-IDF,但是感觉TF-IDF效果一般,不如TextRank好。TextRank是在Goo...原创 2018-09-21 21:48:22 · 6966 阅读 · 9 评论 -
NLTK 词频统计(一) 词频统计,绘图,词性标注
内容简介代码一,笔记简略版本代码二,词频统计与pandas集合,分词词性提取与词频统计结合代码一import FontCN_NLPtools as fts引用的是我自己写的一个类,是对我常用的一些方法的封装,code已经上传# 解决乱码问题import matplotlib as mplmpl.rcParams[u'font.sans-serif'] = [u'KaiTi']mpl.rcParams[u原创 2017-07-29 21:27:51 · 11240 阅读 · 0 评论 -
封装汉语自然语言处理中的常用方法(附代码:生成中文词云)
前叙该文章写作共花费二十分钟,阅读只需要七分钟左右,读完该文章后,你将学会使用少量代码,将中文小说,中文新闻,或者其他任意一段中文文本生成词云图背景在进行汉语自然语言处理时候,经常使用的几个方法,分词,清除停用词,以及获取新词,为了方便使用我们将其封装. 这样我们就可以通过一行简单的代码获取清除停用词并和英语一样分词完毕,并以空格分割的汉语字符串,或者还可以获得其他功能.至于之所以加上这个例子,是原创 2017-07-28 23:40:04 · 4594 阅读 · 0 评论 -
使用NLPIR 进行中文分词并标注词性
背景在许多时候为了更好的解析文本,我们不仅仅需要将文本分词,去停这么简单,除了获取关键词与新词汇以外,我们还需要对获取每个粒度的其他信息,比如词性标注,在python中NLPIR就可以很好的完成这个任务,如果你没有NLPIR那么你可以参考这篇文章NLPIR快速搭建,或者直接下载我已经准备好的汉语自然语言处理文件包NLP源码集合代码,亦是我的笔记# - * - coding: utf - 8 -*-原创 2017-07-29 00:24:25 · 10486 阅读 · 0 评论 -
Python词云 wordcloud 十五分钟入门与进阶
基于Python的词云生成类库,很好用,而且功能强大.博主个人比较推荐写这篇文章花费一个半小时,阅读需要十五分钟,读完本篇文章后您将能上手wordcloud中文词云与其他要点,我将会在下一篇文章中介绍这段代码主要来自wordcloud的github,你可以在github下载该例子""""""Parameters----------"""Parameters----------"""try:"""# 自定义所有单词的颜色。原创 2017-05-26 23:39:55 · 94883 阅读 · 18 评论 -
基于贝叶斯的垃圾邮件过滤器 JAVA
<span style="font-size: 18px;">package cn.zhf.test; import java.io.*; import java.util.*; public class SpamMailDetection { public static final String BASE_PATH = "C:\\Users\\zhf\\Desktop\\mai转载 2017-07-01 22:53:50 · 4295 阅读 · 9 评论 -
中科院分词系统(NLPIR)JAVA简易教程
这篇文档内容主要从官方文档中获取而来,对API进行了翻译,并依据个人使用经验进行了一些补充,鉴于能力有限、水平较低,文档中肯定存在有很多不足之处,还请见谅。下载地址:http://ictclas.nlpir.org/downloads,下载最新的NLPIR/ICTCLAS分词系统下载包授权文件下载地址:https://github.com/NLPIR-team/NLPIR/tree转载 2017-06-06 15:51:28 · 10335 阅读 · 4 评论 -
Python 中文分词 NLPIR 快速搭建
前述本篇文章写完需要半个小时,阅读需要十分钟,读完后,你将学会在Python中使用NLPIR,以及关于使用它的一些有用的基础知识 NLPIR 是中科院的汉语分词系统,在Python中使用也比较广泛,而且曾多次夺得汉语分词比赛的冠军,并且其可以在多个语言上都实现了接口甚至在Hadoop中也可以使用,博主比较推荐NLPIRgithub地址:https://github.com/NLPIR-team/N原创 2017-06-05 23:03:58 · 10284 阅读 · 2 评论 -
Python NLPIR2016 与 wordcloud 结合生成中文词云
前叙该博文继承之前的文章,进一步介绍NLPIR2016的使用,三个内容(利用NLPIR 的发现新词功能自动提取文本内的新词汇,解决worldcloud中英文混合只显示中文的问题,NLPIR与worldcloud结合生成词云) 写作本博客需要一个小时,阅读需要十二分钟.使用 NLPIR2016 获取新词# 之前已经展示过的代码,介绍了NLPIR2016中获取新词的三个方式# 获得新词,第二个参数控原创 2017-06-10 15:06:28 · 2769 阅读 · 0 评论 -
Python NLPIR(中科院汉语分词系统)的使用 十五分钟快速入门与完全掌握
前叙博主写这篇文章使用了八十分钟,阅读需要十五分钟,读完之后你将会学会在Python中使用NLPIR2016.如果你花费更多的时间练习后半部分的例子,你将能够在一天内学会在Python中使用NLPIR2016的全部所需知识 如果你想要获取更详细的API翻译,你需要进一步学习ctypes,附赠一篇关于API翻译,虽然是java语言的,但是NLPIR的接口翻译都是一样的 http://blog.cs原创 2017-06-06 17:16:12 · 25563 阅读 · 16 评论 -
Python 任意中文文本生成词云 最终版本
前叙利用下面的代码你将可以将任意中文文本生成词云,其分词部分由jieba,NLPIR2016两个部分组成,生成词语由worldcloud负责,默认会自动发现文本中的20个新词并添加到词库中,当然你也可以手动添加或者通过txt添加用户词库.code中已经有十分详细的设置说明与代码解释,如果你想进一步学习其详细内容,你可以参考我在第二部分提供的博客列表想要进一步学习使用的参考博客列表Python词云 w原创 2017-06-10 15:20:49 · 8295 阅读 · 6 评论 -
利用 TensorFlow 实现上下文的 Chat-bots
在我们的日常聊天中,情景才是最重要的。我们将使用 TensorFlow 构建一个聊天机器人框架,并且添加一些上下文处理机制来使得机器人更加智能。“Whole World in your Hand” — Betty Newman-Maguire (http://www.bettynewmanmaguire.ie/)你是否想过一个问题,为什么那么多的聊天机器人会缺乏会话情景转载 2017-07-02 23:34:42 · 5207 阅读 · 0 评论 -
汉语自然语言处理工具包下载
Python Windows10汉语自然语言处理基本组件: 201707032018/01/16:Github长期更新,Windows,Linux通用原创 2017-07-03 15:22:47 · 32420 阅读 · 0 评论 -
Python + wordcloud + jieba 十分钟学会生成中文词云
代码部分来源于其他人的博客,但是因为bug或者运行效率的原因,我对代码进行了较大的改变代码第一部分,设置代码运行需要的大部分参数,你可以方便的直接使用该代码而不需要进行过多的修改第二部分为jieba的一些设置,当然你也可以利用isCN参数取消中文分词第三部分,wordcloud的设置,包括图片展示与保存如果你想用该代码生成英文词云,那么你需要将isCN参数设置为0,并且提供英文的停用词表,但是我更推荐你使用Python词云 worldcloud 十五分钟入门与进阶。原创 2017-05-27 17:00:10 · 51806 阅读 · 28 评论 -
Python中文分词 jieba 十五分钟入门与进阶
jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,博主十分推荐写这篇文章花费两个小时小时,阅读需要十五分钟,读完本篇文章后您将能上手jieba下篇博文将介绍将任意中文文本生成中文词云同时如果你希望使用其它分词工具,那么你可以留意我之后的博客,我会在接下来的日子里发布其他有关内容.原创 2017-05-27 16:21:04 · 97622 阅读 · 40 评论