
NLP
五道口纳什
wx公众号/B站:五道口纳什
展开
-
jieba(结巴)—— Python 中文分词
jieba 中文分词:做最好的中文分词库原创 2016-10-27 12:42:51 · 2720 阅读 · 1 评论 -
python re —— 自然语言处理与正则表达式
*:0 或 多个 ?:任意一个 [list]:a[xyz]b,a 与 b 之间必须也只能有一个字符,但只能是 x/y/z,也即:axb, ayb, azb [!list]:匹配除 list 中的任意单一字符,a[!0-9]b,a与b 之间必须也只能有一个字符,但不能是阿拉伯数字,axb,aab,a-b [c1-c2]:[0-9]/[a-z],a[0-9]b,必须也只能有一个字符,a0b,a1b,...原创 2017-06-06 22:22:35 · 1450 阅读 · 0 评论 -
python nltk —— 文本预处理
真相常在于科学地“咬文嚼字”;一篮子货币(Basket of currencies) 1. 追本溯源 龙马精神: 龙马:乾为龙,坤为马。 龙马:古代传说中形状象龙的骏马;原创 2016-12-22 22:08:24 · 1632 阅读 · 0 评论 -
深度学习 —— 使用 gensim 实现 word2vec
在自然语言处理领域中,将单词(words)或词语(phases)映射到向量空间(vector space)中可以很容易就得到单词之间的相似度,因为向量空间中两个向量的相似度很容易求得,比如余弦相似度。 1. word2vec word2vec: 一种无监督深度学习方法, 顾名思义,其能实现从 words (来源于一个很大的文本语料库)到 vector 转化,称之为 word embedd原创 2017-05-28 22:17:15 · 1730 阅读 · 0 评论 -
常见分词工具包
1. 中文 thulac:THULAC:一个高效的中文词法分析工具包 下载:pip install thulac 简单使用:import thulac seg = thulac.thulac() text = seg.cut('我爱自然语言处理') # [['我', 'r'], ['爱', 'v'], ['自然', 'n'], ['语言', 'n'], ['处理', 'v']] t原创 2017-03-10 19:08:05 · 1775 阅读 · 0 评论 -
分位数(quantiles)、Z-score 与 F-score
注意和 F-test 作区分,F-test 用于显著性测试(significance test)。 在二分类(binary classification,当然也可从多分类任务轻松转换为二分类问题,One-vs.-rest)问题的统计分析中,F1 score。原创 2016-11-04 19:59:40 · 9372 阅读 · 0 评论 -
sklearn 文本处理
from sklearn.feature_extraction.text import ** 1. 向量的统计考虑如下预料,三行 ⇒ 三个文档,不重复的单词共有 4 个,原创 2016-10-27 11:55:01 · 1976 阅读 · 0 评论 -
学习 nltk —— TF-IDF
TF-IDF(Term Frequency & Inverse Document Frequency),是一种用于信息检索与数据挖掘的常用加权技术。它的主要思想是:如果某个词或短语在一篇文章中出现的频率(term frequency)高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。原创 2016-10-25 19:50:43 · 3517 阅读 · 0 评论 -
NLP(paper + code)
1. CNN for NLP Convolutional Neural Networks for Sentence ClassificationYoon Kim Sentence Classification CNN-for-Sentence-Classification-in-Keras Relation Extraction: Perspective from Convolutional Neu原创 2016-11-04 15:50:15 · 1252 阅读 · 0 评论 -
python-levenshtein —— 字符串相似度的计算
1. 可数名词(count/countable noun)语言学上,一个可数名词可以被一个数值修饰,无论单数(singular)还是复数(plural)形式,同时也可出现一些定量的限定词(determiners ),诸如 each,every,several,等。不可数名词(mass noun)则不具备这些性质;中文(普通话)则将所有的名词视为不可数名词,且其常常还需要量词的修饰:原创 2016-11-20 21:08:50 · 2624 阅读 · 0 评论