NLP
文章平均质量分 87
hustqb
暂无
展开
-
【论文阅读】对CNN进行序列分类的理解或者说是使用指南
论文:A Sensitivity Analysis of (and Practitioners’ Guide to) ConvolutionalNeural Networks for Sentence Classification2016年的论文,中国人的论文,作者写得很认真,每次实验的都非常详细(如交叉验证,实验多次等),这篇博客略去了对实验细节的介绍,只阐述结果。Abstract近年来...原创 2020-02-09 11:10:12 · 3088 阅读 · 0 评论 -
了解一下Sklearn中的文本特征提取
文本特征提取基于词袋的向量化要知道,原始文本是不能直接被机器学习到的,因为机器通常需要以数值型的、定长的数据作为输入。原始文本是字符串或字符串集合。数值型、定长的数据是浮点型或整型的向量。为了让原始为本转化成数值型地、定长的向量,sklearn提供了三种常用的工具:令牌化字符串基于词频的向量化进行正则化或加权,使向量化的文本能包含一定的上下文信息。以上三种工具存在一种递...原创 2019-11-16 17:39:29 · 3273 阅读 · 0 评论 -
NLP之词袋模型二
在NLP之词袋模型一中介绍了最基本利用词袋模型(Bag of Words)进行词向量表达对方法,本文介绍几种提升词袋模型性能的方法。提升词袋模型性能的方法主要在以下几个方面:词袋的管理词向量表达方法的选择词袋的管理管理词袋包括:词袋的创建、词袋的维护。为了更好的管理词袋,我们首先考虑以下几个方面:词袋可能会很大,特别是当我们处理较多文本的时候。词袋很大的话,容易导致词向量比较...原创 2019-08-18 21:58:25 · 1998 阅读 · 0 评论 -
NLP之词袋模型一
声明:参考A Gentle Introduction to the Bag-of-Words Model词袋模型目的:将不定长的文本型数据转化为定长的数值型数据,以便用作机器学习模型的输入。用处:常用于文本建模和分类。优点:简单,易实现。缺点:不能考虑文本的结构和顺序。基本流程1. 获取全部文本以《双城记》中的一段话为例:It was the best of times,it...原创 2019-08-16 21:41:26 · 1541 阅读 · 0 评论