文本特征提取
冰糖少女
人生苦短,我爱python
展开
-
NLP中的语言模型及文本特征提取算法
本文以基本语言模型为逻辑主线,漫谈NLP中两个核心问题,即文本表示(Text Representation)与文本特征提取(Feature Engineering)。通过本文你会发现,NLP的一部分经典算法以及目前的发展都能够通过文本表示串联在一起,有个基本的结构脉络。当然,NLP大牛们正在不断地探索NLP更多的维度,本文只是提供了一种切入的角度,也仅代表个人观点,如有任何错误还希望大牛们指教。原创 2017-05-23 16:50:48 · 16102 阅读 · 2 评论 -
语言模型系列之N-Gram、NPLM及Word2vec
上一篇博客简单梳理了NLP的技术架构、NLP语言模型的演化,以及最基本的语言模型Bag-of-Word词袋模型及基于词袋模型的重要模型和算法。本文将继续探讨NLP中重要的语言模型N-Gram语言模型,并探究其变形NPLM、CBOW及衍生物Word2vec。原创 2017-05-23 17:44:47 · 14792 阅读 · 3 评论 -
【sklearn】利用sklearn训练LDA主题模型及调参详解
sklearn不仅提供了机器学习基本的预处理、特征提取选择、分类聚类等模型接口,还提供了很多常用语言模型的接口,LDA主题模型就是其中之一。本文除了介绍LDA模型的基本参数、调用训练以外,还将提供两种LDA调参的可行策略,供大家参考讨论。考虑到篇幅,本文将略去LDA原理证明部分。原创 2017-07-31 15:50:22 · 69277 阅读 · 40 评论