文本处理
文章平均质量分 67
Ding_xiaofei
程序员
展开
-
Python读取文本常见的编码问题
开篇当我们刚刚开始学习处理大量的文本数据的时候,总是会在读取数据这一块出现卡壳,尤其是像我这种根本没有任何指导的小白,千里之行刚刚迈出第一步就宣告结束了,这种情况往往出现在我们自己爬取的一些网络文本,一般是TXT文件。下面就让我们看看具体怎么解决这样的问题。读取文本数据这边我们主要讲关于文本的读取,涉及到二进制文件的读取就不多提了。首先让我们看看,正常的情况下,我们是怎么样去读取一...原创 2018-05-02 15:17:13 · 3407 阅读 · 1 评论 -
深度文本匹配模型(一):k-nrm
开篇用深度学习模型去匹配句子的相似度已经是目前句子相似度的主流方法。本质上还是句子相似度的问题。深度文本匹配模型可以提供更好的搜索排序服务。它的基本场景就是:给一个query,模型返回排序靠前的document。是不是很像一个搜索引擎,其实本质上是差不多的。只不过深度文本匹配更具语义上的优势,更加智能。公司实习是做问答系统,所以最近都在刷一些文本匹配的模型,这边以博客的形式记录下来。不光是理论...原创 2018-10-17 12:06:16 · 5949 阅读 · 1 评论 -
jieba分词
待更新原创 2018-07-03 21:37:16 · 584 阅读 · 0 评论 -
NLP相关任务
开篇这是一个目录,里面包含的是对应博客的链接目录NLP+词法系列(一)关于中文分词原创 2018-06-28 16:00:13 · 379 阅读 · 0 评论 -
深度文本匹配的基本方法
开篇这里主要的内容来自庞亮博士的一篇综述性论文,后面会放出论文的参考地址。摘要深度文本匹配模型可以分为三类: 基于单语义文档表达的深度学习模型 基于单语义文档表达的深度学习模型主要思路是,首先将单个文本先表达成一个稠密向量(分布式表达),然后直接计算两个向量间的相似度作为文本间的匹配度。 基于多语义文档表达的深度学习模型 基于多语义的文档表达的深度学习模型认为单一粒度的向量...原创 2018-07-05 12:02:49 · 9239 阅读 · 2 评论 -
深度文本匹配模型(二):Conv-knrm模型复现
开篇这篇是基于k-nrm改进的一篇论文提出的方法。同样的作者,前后隔了一年左右的时间。前面讲k-nrm的博客我没有放出代码,这一篇我会放出一个详细的模型解读源码以供大家参考。Conv-knrmConv-knrm相比k-nrm,最大的改变就是它添加了n-gram的卷积,增加了原先模型的层次,这里有一个好处就是它能够捕捉更加细微的语义实体,交叉的粒度也更加细。这边我放上它完整的模型图,...原创 2018-10-17 12:09:01 · 7229 阅读 · 10 评论 -
中文短文本相似度:WMD
开篇句子相似是目前我做问句匹配的基础。 这是我尝试使用词向量,以一种无监督方法去计算两个句子相似度的第二种方法。第一种方法,我尝试使用词向量的加权平均生成句向量来计算句子间的相似度,效果很一般,之后我会尝试使用不同的加权方法再次计算。有机会我会连着代码一起放出来。 当然我还使用了三种不同的深度学习方法来计算相似度,之后都会以代码讲解的方式呈现。WMDword mover’s dis...原创 2018-10-17 12:10:40 · 16444 阅读 · 12 评论 -
深度学习和文本分类
参考博客传统的文本分类模型深度学习文本分类模型fasttextfastText 模型输入一个词的序列(一段文本或者一句话),输出这个词序列属于不同类别的概率。 序列中的词和词组组成特征向量,特征向量通过线性变换映射到中间层,中间层再映射到标签。 fastText 在预测标签时使用了非线性激活函数,但在中间层不使用非线性激活函数。 fastText 模型架构和 Wor...原创 2018-07-20 15:03:53 · 1652 阅读 · 0 评论 -
Tensorflow与NLP(CNN文本分类源码解读)
开篇好久没有更新Tensorflow与NLP系列了,时间一长就比较容易遗忘,所以今天还是要开始这些源码的解读。老规矩,原理还是一带而过,重要的是代码的解读,我相信整个代码完整的流程掌握了,原理就不在话下了。整个模型的流程在图上都有完整的体现。train.py参数设置首先是大量的参数设置# Data loading paramstf.flags.DEFINE_flo...原创 2018-07-15 12:10:40 · 2691 阅读 · 0 评论 -
如何构建一个问答机器人(FAQ问答机器人)
开篇下面的主要内容摘自腾讯知文的算法负责人的演讲,主要描述了腾讯知文问答系统的主要框架。问答类型第一种类型,任务驱动型。这种类型通常是用户希望去完成一些任务,比如查天气、查汇率等。第二种类型,解决用户信息获取类的问题。这种类型也是我们这次分享的重点,我们将主要在这点展开。这也是目前业界落地最多的一种问答系统类型。第三种类型,通用闲聊型。比如微软的小冰、苹果的 Siri 都支持通...原创 2018-08-10 09:01:32 · 9935 阅读 · 1 评论 -
一篇简短的文本摘要综述
摘要的定义对海量数据内容进行提炼与总结,以简洁、直观的摘要来概括用户所关注的主要内容,方便用户快速了解与浏览海量内容。文本摘要这篇主要讲的还是文本摘要早期论文 Luhn. The Automatic Creation of Literature Abstracts (1958)困难在哪 摘要撰写是一项高度智能,同时也很” 自由” 的任务 机器写摘要 vs. 专家写摘要...原创 2018-09-13 22:00:27 · 4976 阅读 · 8 评论 -
代码记录(中文NLP任务)
预处理代码分词输入一句话 输出一个词的listfrom pyltp import Segmentorfrom zhon.hanzi import punctuationdef word_cut(sentence): LTP_DATA_DIR = 'C:\\Users\\d84105613\\ltp_data' cws_model_path = os.path.jo...原创 2018-07-09 17:03:53 · 745 阅读 · 0 评论 -
深度学习中文NLP任务实战(二):使用训练好的词向量
开篇先放上我参考的一篇博客 tensorflow 使用预训练词向量embedding层我们使用预训练的词向量,最主要的目的就是为了生成embedding层的wW = tf.Variable(tf.constant(0.0, shape=[vocab_size, embedding_dim]), trainable=False, name="W"...原创 2018-07-08 11:04:51 · 5900 阅读 · 0 评论 -
深度学习中文NLP任务实战(一):中文词向量的训练
待更新原创 2018-07-08 10:06:08 · 5879 阅读 · 2 评论 -
Deeplearning for NLP (简介)
开篇过目就忘说的可能就是在下了,所以现在所有的学习内容我都会写成博客,不成博客的就是过目就忘啦。这是系列不算挖坑,前面写了几篇Tensorflow的文章,词向量这篇一直处于难产中,拖延症比较严重。争取这两天能够写出来。下面开始我们的正题,这篇博客的内容主要来源于17年牛津大学的NLP课程,这边放出课程oxford-cs-deepnlp的github地址和网易云课堂课程的视频链接,夸一下网易,很...原创 2018-05-09 13:23:38 · 853 阅读 · 0 评论 -
TensorFlow与NLP(词向量:skip-gram)
开篇前面已经讲了两种表示文本特征的向量化方法了,到这里也可以进入我们的词向量了,词向量是近几年来NLP领域最重要的研究成果之一,我们现在再看一些基本的NLP任务也基本上再也离不开词向量的身影,今天我们就用代码的层面来看看它到底是什么?word2vec...原创 2018-05-10 10:49:56 · 3658 阅读 · 0 评论 -
京东手机评论分析(一):词云
开篇先做一些简单的评论分析吧,大部分还是借助于不同的python工具,不得不说很多中文的基本任务还是做得效果比较一般的,毕竟中文的复杂程度可不是英文可以比拟的,这篇就是简单地生成一个词云,是以词频为主的,姑且把高频词当做关键词吧,其实你看了下面我分析oppo r15的结果,你就会发现,其实还是有那么一点靠谱的。可能下面的内容比我开篇的废话还要少。词云的生成数据集的介绍在我的这篇博客,下...原创 2018-05-17 21:22:31 · 2247 阅读 · 0 评论 -
常见的NLP处理手段和相应的spaCy库使用
开篇这篇博客主要讲的是关于英文的一些处理,关于中文的一些nlp处理后续有机会补上。本文主要有以下几个内容:基于规则的预处理常规预处理spaCy库的常规使用pointer-generator关于预处理预处理是很多NLP任务的基础,一个好的预处理对后续的NLP结果有很重要的影响。首先是关于分词的一些问题,中文分词是老大难问题,不太好分,英文就简单得多了,但是英文还是会出现一些...原创 2018-05-08 09:43:34 · 6847 阅读 · 3 评论 -
评论挖掘的论文调研
开篇在acm和ieee的数据库里面搜了一大圈,最新的文章也是在15年左右了,感觉还是有点老,不过也不碍,毕竟他们的方法我肯定都是不知道的,过一过,也好了解一下大家以前的工作都在做些什么,下面的一些文章是不按照时间顺序来排列的,我看到那篇就会写那篇,最后有一些自己的总结。我是按照关键字搜索的,所以可能会有些偏题,请大家见谅。Review Synthesis for Micro-Review ...原创 2018-05-21 22:22:56 · 451 阅读 · 0 评论 -
京东手机评论的爬取
开篇做论文的时候,最多接触的就是标准的数据集,几乎不需要太多的结构化处理,下载下来就是可以直接加载使用的数据,课题是有关评论分析的,但是论文针对的都是英文数据,而国内电商平台其实积累了大量的评论数据,没有办法通过官方渠道获取,那么我们就写个爬虫自己爬吧,我没有系统地学过爬虫,所以挑了一个比较好爬的网站。获取评论存储的地址首先我们选择一个想要爬取的商品,打开它的网址,这边我选择的是iph...原创 2018-05-15 16:22:02 · 3950 阅读 · 5 评论 -
NLP的基本任务和对应的算法
开篇这边给自己挖个大坑,这边主要讲一些基本的nlp任务和对应的算法,希望给大家一个对应的索引,以便去很好的寻找相对应的算法,也希望能够和我未来写的博客建立起来链接。目录注意这边这是一个目录,我会慢慢丰富这个目录,然后建立目录和相应的博客链接。句法分析 算法:基于Bi-LSTM-CRF算法体系,以及丰富的多领域词表句法分析(依存句法分析、成分句法分析) 算法:shift-re...原创 2018-05-22 12:34:56 · 9689 阅读 · 0 评论 -
京东手机评论分析(二):关键词提取
开篇这边尝试使用三种方法去提取关键词,我希望能通过一些关键词提取出相应的属性,为了修正我们的评论属性,我还会人为去补充相应的特征词典,关于同义词的一些问题暂且放开不考虑。词频直接贴出代码import jsonimport jiebaimport jieba.analysefrom collections import Counterimport stringfrom ...原创 2018-05-26 16:03:48 · 4384 阅读 · 0 评论 -
京东手机评论数据集介绍
待更新原创 2018-05-16 12:29:39 · 6695 阅读 · 22 评论 -
python自然语言处理入门(NLTK)
开篇这边主要讲一些nltk的日常使用,对于我来说算是一种复习吧,希望也给大家一些入门的启发,关于nlp的一些python库,我日后会慢慢介绍,前面已经出现了一些中文处理的库,后期我想把他们放到一起讲讲。关于nltk的安装,这边就不多讲了,一条命令就可以下载,语料库在nltk_data可能比较难下载,有兴趣的可以给我留言索要。这边太大了,我无法上传。数据数据的主要来源是亚马逊的商品评...原创 2018-05-22 23:36:26 · 1326 阅读 · 0 评论 -
基于Bi-LSTM-CRF的中文命名实体识别(简单源码解析)
概述这篇博文主要进行源码的一些解析,至于像LSTM和CRF这种算法的原理不做过多的解释,在代码中它们也被简单的封装成一两行代码。CRF的理论至今很少见到比较详尽易懂的博客,基本是怼公式,我看得也是云里雾里,为了快速上手,还是决定从源码搞起,先把东西做了,再补细节。代码部分还是先放一张模型的整体图,希望大家有个整体的把握。主要的就三层,look-up,lstm,crf,架构还是比较清晰的。...原创 2019-08-06 17:49:47 · 4882 阅读 · 2 评论