Zhang's Wikipedia

玩就玩大的

python re —— 自然语言处理与正则表达式

*:0 或 多个 ?:任意一个 [list]:a[xyz]b,a 与 b 之间必须也只能有一个字符,但只能是 x/y/z,也即:axb, ayb, azb [!list]:匹配除 list 中的任意单一字符,a[!0-9]b,a与b 之间必须也只能有一个字符,但不能是阿拉伯数字,axb,aab,...

2017-06-06 22:22:35

阅读数:564

评论数:0

深度学习 —— 使用 gensim 实现 word2vec

在自然语言处理领域中,将单词(words)或词语(phases)映射到向量空间(vector space)中可以很容易就得到单词之间的相似度,因为向量空间中两个向量的相似度很容易求得,比如余弦相似度。 1. word2vec word2vec: 一种无监督深度学习方法, 顾名思义,其能实...

2017-05-28 22:17:15

阅读数:859

评论数:0

常见分词工具包

1. 中文 thulac:THULAC:一个高效的中文词法分析工具包 下载:pip install thulac 简单使用:import thulac seg = thulac.thulac() text = seg.cut('我爱自然语言处理') # [['我', 'r'], ...

2017-03-10 19:08:05

阅读数:852

评论数:0

python nltk —— 文本预处理

真相常在于科学地“咬文嚼字”;一篮子货币(Basket of currencies) 1. 追本溯源 龙马精神: 龙马:乾为龙,坤为马。 龙马:古代传说中形状象龙的骏马;

2016-12-22 22:08:24

阅读数:269

评论数:0

python-levenshtein —— 字符串相似度的计算

1. 可数名词(count/countable noun)语言学上,一个可数名词可以被一个数值修饰,无论单数(singular)还是复数(plural)形式,同时也可出现一些定量的限定词(determiners ),诸如 each,every,several,等。不可数名词(mass noun)则...

2016-11-20 21:08:50

阅读数:1008

评论数:0

分位数(quantiles)、Z-score 与 F-score

注意和 F-test 作区分,F-test 用于显著性测试(significance test)。 在二分类(binary classification,当然也可从多分类任务轻松转换为二分类问题,One-vs.-rest)问题的统计分析中,F1 score。

2016-11-04 19:59:40

阅读数:2968

评论数:0

NLP(paper + code)

1. CNN for NLP Convolutional Neural Networks for Sentence ClassificationYoon Kim Sentence Classification CNN-for-Sentence-Classification-in-Keras Rel...

2016-11-04 15:50:15

阅读数:579

评论数:0

jieba(结巴)—— Python 中文分词

jieba 中文分词:做最好的中文分词库

2016-10-27 12:42:51

阅读数:1545

评论数:0

sklearn 文本处理

from sklearn.feature_extraction.text import ** 1. 向量的统计考虑如下预料,三行 ⇒ 三个文档,不重复的单词共有 4 个,

2016-10-27 11:55:01

阅读数:1215

评论数:0

学习 nltk —— TF-IDF

TF-IDF(Term Frequency & Inverse Document Frequency),是一种用于信息检索与数据挖掘的常用加权技术。它的主要思想是:如果某个词或短语在一篇文章中出现的频率(term frequency)高,并且在其他文章中很少出现,则认为此词...

2016-10-25 19:50:43

阅读数:421

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭