工具类:
re库 正则表达式
jieba
百度 自然语言处理API
CRF
GIZA++
gensim
语料库
算法类:
停用词与关键词处理
词对齐
word2vector
sense2vec
TF-IDF
共现矩阵与SVD降维
朴素贝叶斯模型(多项式模型,伯努利模型,混合模型)、(平滑处理)
N-gram语言模型
LDA主题模型
概率图模型(贝叶斯网络)
隐马尔科夫
最大熵模型
CRF(条件随机场)
machinelearn(SVM)
NNLM(Neural Network Language model)、(CNN,RNN,LSTM)
应用类:
垃圾邮件识别(贝叶斯、n-gram)
褒贬分析(贝叶斯)
拼写纠错(贝叶斯)
词性标注(n-gram,隐马尔科夫)
中文分词(n-gram)
机器翻译(n-gram,词对齐)
语音识别(n-gram)
主题分析(LDA)
自动摘要()
指代消解()