文本处理
文章平均质量分 91
修炼打怪的小乌龟
这个作者很懒,什么都没留下…
展开
-
文本处理——fastText原理及实践(四)
博文地址:https://zhuanlan.zhihu.com/p/32965521fastText是Facebook于2016年开源的一个词向量计算和文本分类工具,在学术上并没有太大创新。但是它的优点也非常明显,在文本分类任务中,fastText(浅层网络)往往能取得和深度网络相媲美的精度,却在训练时间上比深度网络快许多数量级。在标准的多核CPU上, 能够训练10亿词级别语料库的词向量在10分钟...转载 2018-06-11 11:06:58 · 6757 阅读 · 0 评论 -
文本挖掘预处理之TF-IDF
原文:http://www.cnblogs.com/pinard/p/6693230.html 在文本挖掘预处理之向量化与Hash Trick中我们讲到在文本挖掘的预处理中,向量化之后一般都伴随着TF-IDF的处理,那么什么是TF-IDF,为什么一般我们要加这一步预处理呢?这里就对TF-IDF的原理做一个总结。1. 文本向量化特征的不足 在将文本分词并向量化后,我们可以得到词汇表中每个词在各...转载 2018-06-27 18:50:29 · 568 阅读 · 0 评论 -
中文文本挖掘预处理流程总结
原文:http://www.cnblogs.com/pinard/p/6744056.html在对文本做数据分析时,我们一大半的时间都会花在文本预处理上,而中文和英文的预处理流程稍有不同,本文就对中文文本挖掘的预处理流程做一个总结。1. 中文文本挖掘预处理特点 首先我们看看中文文本挖掘预处理和英文文本挖掘预处理相比的一些特殊点。 首先,中文文本是没有像英文的单词空格那样隔开的,因此不能...转载 2018-06-27 19:04:05 · 432 阅读 · 0 评论 -
英文文本挖掘预处理流程总结
原文:http://www.cnblogs.com/pinard/p/6756534.html 在中文文本挖掘预处理流程总结中,我们总结了中文文本挖掘的预处理流程,这里我们再对英文文本挖掘的预处理流程做一个总结。1. 英文文本挖掘预处理特点 英文文本的预处理方法和中文的有部分区别。首先,英文文本挖掘预处理一般可以不做分词(特殊需求除外),而中文预处理分词是必不可少的一步。第二点,大部分英文...转载 2018-06-27 19:06:46 · 672 阅读 · 0 评论 -
用scikit-learn学习LDA主题模型
原文:http://www.cnblogs.com/pinard/p/6908150.html 在LDA模型原理篇我们总结了LDA主题模型的原理,这里我们就从应用的角度来使用scikit-learn来学习LDA主题模型。除了scikit-learn, 还有spark MLlib和gensim库也有LDA主题模型的类库,使用的原理基本类似,本文关注于scikit-learn中LDA主题模型的使用...转载 2018-06-27 19:19:11 · 1164 阅读 · 1 评论 -
DeepNLP的表示学习·词嵌入来龙去脉·深度学习(Deep Learning)·自然语言处理(NLP)·表示(Representation)
原文:https://blog.csdn.net/scotfield_msn/article/details/69075227〇、序一、DeepNLP的核心关键:语言表示(Representation)二、NLP词的表示方法类型 1、词的独热表示one-hot representation 2、词的分布式表示distributed representation三、NLP...转载 2018-07-09 21:10:55 · 1241 阅读 · 0 评论 -
多任务学习-Multitask Learning概述
1、单任务学习VS多任务学习 单任务学习:一次只学习一个任务(task),大部分的机器学习任务都属于单任务学习。 多任务学习:把多个相关(related)的任务放在一起学习,同时学习多个任务。 多任务学习(multitask learning)产生的原因? 现在大多数机器学习任务都是单任务学习。对于复杂的问题,也可以分解为简单且相互独立的子问题来单独解决,然...转载 2018-10-15 22:04:03 · 34358 阅读 · 2 评论 -
深度学习中的表示学习_Representation Learning
一、深度学习网络的表达方式汇总及模型分类方法人的大脑会对眼睛捕捉到的外界事物进行逐级抽象,逐渐提取出抽象的语义信息,以便为人脑所理解。深度学习从这一科学发现得到启发,通过网络的权值来捕捉外界输入模式的特征,并且通过网络连接方式来组合这些特征从而提取出更加高层特征,采用这种方法逐级从大量的输入数据中学习到对于输入模式有效的特征表示,然后再把学习到的特征用于分类、回归和信息检索。深度学习能够提取输...转载 2018-10-16 15:56:43 · 18782 阅读 · 1 评论 -
基于CNN的Seq2Seq模型-Convolutional Sequence to Sequence
Seq2seq是现在使用广泛的一种序列到序列的深度学习算法,在图像、语音和NLP,比如:机器翻译、机器阅读、语音识别、智能对话和文档摘要生成等,都有广泛的应用。Seq2Seq模由encoder和decoder两个部分来构成,假设模型的训练样本为(X,Y),encoder负责把输入X映射到隐向量Z,再由decoder把Z映射到输出Y。现在大多数场景下使用的Seq2Seq模型基于RNN构成的,虽然取...转载 2018-10-16 16:03:55 · 5795 阅读 · 0 评论 -
卷积神经网络中不同类型的卷积方式介绍
卷积基本概念 首先,我们首先回顾一下卷积相关的基本概念,定义一个卷积层需要的几个参数。 2维卷积使用卷积核大小为3,步长为1和Padding 卷积核大小(Kernel Size):卷积核大小定义了卷积的视野。2维中的常见选择是3 - 即3x3像素矩阵。 步...转载 2018-10-16 16:24:11 · 6470 阅读 · 0 评论 -
深度学习中Attention Mechanism详细介绍:原理、分类及应用
Attention是一种用于提升基于RNN(LSTM或GRU)的Encoder + Decoder模型的效果的的机制(Mechanism),一般称为Attention Mechanism。Attention Mechanism目前非常流行,广泛应用于机器翻译、语音识别、图像标注(Image Caption)等很多领域,之所以它这么受欢迎,是因为Attention给模型赋予了区分辨别的能力,例如,在...转载 2018-10-16 17:07:52 · 22073 阅读 · 0 评论 -
什么是Word2Vec?如何有效的表征文本的?
本文主要围绕两个问题进行介绍 “什么是Word2Vec?如何有效的表征文本的?” 2013年,Google开源了一个用于生成词向量的工具,因其简单实用高效而引起广泛关注。若有兴趣的读者,可阅读作者的原论文[8]。 Word2Vector本质上有两个学习任务,还有两套模型分别是: CBOW(Continuous Bag-Of-Words,即连续的词袋模型):对于...转载 2018-11-04 12:30:54 · 1156 阅读 · 0 评论 -
文本主题模型之LDA
什么是话题模型(topic model)?话题模型就是用来发现大量文档集合的主题的算法。借助这些算法我们可以对文档集合进行归类。适用于大规模数据场景。目前甚至可以做到分析流数据。需要指出的是,话题模型不仅仅限于对文档的应用,可以应用在其他的应用场景中,例如基因数据、图像处理和社交网络。这是一种新的帮助人类组织、检索和理解信息的计算工具。通过这类算法获得的那些主题都可以比喻成望远镜不同的放大倍数。我...转载 2018-06-27 18:37:16 · 19072 阅读 · 0 评论 -
doc2vec 句向量模型PV-DM与PV-DBOW原论文翻译
原文:https://blog.csdn.net/liaocyintl/article/details/50369158原文:LE, Quoc V.; MIKOLOV, Tomas. Distributed representations of sentences and documents. arXiv preprint arXiv:1405.4053, 2014.这篇论文提出了一个使用Word...转载 2018-06-27 17:48:18 · 3522 阅读 · 0 评论 -
用 Python 实现 LDA
原文地址:https://blog.csdn.net/github_36299736/article/details/54966460原文出处:Jordan BarberLDA 是什么LDA 演练需要用到的包导入文档清洗文档 分词移除停用词词干提取创建 document-term matrix应用 LDA 模型检查结果LDA 原理完整代码LDA 是什么?隐含狄利克雷分布(以下简写为 LDA)是一种...转载 2018-07-09 20:56:16 · 2028 阅读 · 0 评论 -
文本处理——基于 word2vec 和 CNN 的文本分类 :综述 & 实践(一)
原文地址:https://zhuanlan.zhihu.com/p/29076736导语传统的向量空间模型(VSM)假设特征项之间相互独立,这与实际情况是不相符的,为了解决这个问题,可以采用文本的分布式表示方式(例如 word embedding形式),通过文本的分布式表示,把文本表示成类似图像和语音的连续、稠密的数据。这样我们就可以把深度学习方法迁移到文本分类领域了。基于词向量和卷积神经网络的文...转载 2018-06-11 11:29:08 · 22125 阅读 · 2 评论 -
文本处理(六)——Text-CNN、Word2Vec、RNN、NLP、Keras、fast.ai
原文:https://www.jianshu.com/p/7f35a4b33f45Text-CNNText-CNN 文本分类TextCNN 是利用卷积神经网络对文本进行分类的算法,由 Yoon Kim 在 “Convolutional Neural Networks for Sentence Classification” 一文 (见参考[1]) 中提出. 是2014年的算法. ...转载 2018-06-11 14:39:39 · 4571 阅读 · 0 评论 -
文本处理(七)——用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践
原文地址:https://zhuanlan.zhihu.com/p/25928551近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路、做法和部分实践的经验。业务问题描述:淘宝商品的一个典型的例子见下图,图中商品的标题是“夏装雪纺条纹短袖t恤女春半袖衣服夏天中长款大码胖mm显瘦上...转载 2018-06-11 14:59:55 · 11304 阅读 · 0 评论 -
文本处理(八)——深度学习在文本分类中的应用
原文地址:http://www.cnblogs.com/llhthinker/p/8127788.html1. 文本分类任务介绍文本分类是自然语言处理的一个基本任务,试图推断出给定的文本(句子、文档等)的标签或标签集合。文本分类的应用非常广泛。如:垃圾邮件分类:二分类问题,判断邮件是否为垃圾邮件情感分析二分类问题,判断文本情感是积极(positive)还是消极(negative)多分类问题,判断文...转载 2018-06-11 15:23:47 · 1795 阅读 · 0 评论 -
fastText、TextCNN、TextRNN……这里有一套NLP文本分类深度学习方法库供你选择
原文地址:https://www.cnblogs.com/DjangoBlog/p/7511979.html这个库的目的是探索用深度学习进行NLP文本分类的方法。 它具有文本分类的各种基准模型,还支持多标签分类,其中多标签与句子或文档相关联。 虽然这些模型很多都很简单,可能不会让你在这项文本分类任务中游刃有余,但是这些模型中的其中一些是非常经典的,因此它们可以说是非常适合作为基准模型的。 每个模型...转载 2018-06-11 16:39:07 · 5090 阅读 · 0 评论 -
文本分类算法综述
原文:https://blog.csdn.net/John_xyz/article/details/79602506业务背景最近一段时间在今日头条国际化部门实习,做的文本质量工作。主要是文本分类,就是用一些机器学习或者深度学习的方法过滤掉低俗的新闻。因为做的是小语种,比如说法语,德语,意语,泰米尔语等,标注力量特别有限,有些语种甚至找不到标注人员。在这种情况下,要通过模型准确的识别出低俗新闻,难度...转载 2018-06-11 16:47:52 · 6800 阅读 · 0 评论 -
doc2vec原理及实践
原文地址:https://blog.csdn.net/john_xyz/article/details/792085641.“句向量”简介word2vec提供了高质量的词向量,并在一些任务中表现良好。 关于word2vec的原理可以参考这几篇论文:https://arxiv.org/pdf/1310.4546.pdfhttps://arxiv.org/pdf/1301.3781.pdf关于如何使用...转载 2018-06-11 17:03:13 · 34916 阅读 · 4 评论 -
python︱六款中文分词模块尝试:jieba、THULAC、SnowNLP、pynlpir、CoreNLP、pyLTP
原文:https://blog.csdn.net/sinat_26917383/article/details/77067515THULAC四款python中中文分词的尝试。尝试的有:jieba、SnowNLP(MIT)、pynlpir(大数据搜索挖掘实验室(北京市海量语言信息处理与云计算应用工程技术研究中心))、thulac(清华大学自然语言处理与社会人文计算实验室) 四款都有分词功能,本博客只...转载 2018-06-13 15:59:34 · 1903 阅读 · 0 评论 -
word2vec
近期一直在看关于文本处理的东西,怎奈一点基础都没有,看得着实费劲。特别是自己对于word2vec的理解一直不到位,因为总是介绍含糊不清,刚没说两句呢,就转到它的两个常用模型了。前段时间搜索的相关信息并不能减少word2vec给我的神秘感。不过一直好奇会催使你不断搜索新的信息,从而减少自己对其的持续的违和感。抱怨一句,在自认为一天就能搞定的事情上浪费了一个星期还没有彻底搞明白,真的是很难受,内心在不...转载 2018-06-25 14:21:51 · 1705 阅读 · 0 评论 -
文本处理——Word2Vec(二)
原文地址:http://www.sohu.com/a/128794834_211120自从 Google 的 Tomas Mikolov 在《Efficient Estimation of Word Representation in Vector Space》提出 Word2Vec,就成为了深度学习在自然语言处理中的基础部件。Word2Vec 的基本思想是把自然语言中的每一个词,表示成一个统一意...转载 2018-06-11 10:01:01 · 782 阅读 · 0 评论 -
词向量之WORD2VEC实践
原文地址:https://www.cnblogs.com/Climbing-Snail/p/7729795.html首先感谢无私分享的各位大神,文中很多内容多有借鉴之处。本次将自己的实验过程记录,希望能帮助有需要的同学。一、从下载数据开始 现在的中文语料库不是特别丰富,我在之前的文章中略有整理,有兴趣的可以看看。本次实验使用wiki公开数据,下载地址如下: wiki英文数据下载...转载 2018-07-09 14:44:08 · 775 阅读 · 0 评论 -
基于gensim的doc2vec实践
原文:https://blog.csdn.net/John_xyz/article/details/794242841.“句向量”简介word2vec提供了高质量的词向量,并在一些任务中表现良好。 关于word2vec的原理可以参考这几篇论文:https://arxiv.org/pdf/1310.4546.pdfhttps://arxiv.org/pdf/1301.3781.pdf关于如何使用第三...转载 2018-07-09 19:37:11 · 1275 阅读 · 0 评论 -
sklearn.feature_extraction.text 中的 TfidfVectorizer 实现过程
对于NLP,已经学习一年了,可是一直有一个问题困扰着我,终于忍无可忍,决定将问题解决掉。首先,介绍一下我的问题:对于TFIDF算法,当利用训练集训练完成分类器,利用分类器进行训练时,如果测试集中只有一个文档,TFIDF数据是如何生成的?这个问题可能对于很多人来说,很简单。但是对于我来说着实很纠结。1. TFIDF算法基础知识TF-IDF(Term Frequency-Inver...原创 2019-02-24 21:07:57 · 9011 阅读 · 2 评论