自然语言处理
文章平均质量分 78
红色工程师qk
加油,努力学习超越自己一起飞
展开
-
自然语言处理系列-2-文本聚类
本文主要简要介绍文本聚类, 1: 什么是文本聚类 先说说聚类的概念,聚类又称群分析,是数据挖掘的一种重要的思想,聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。(以上来自百度百科). 再说到文本聚类,文本聚类其实也...转载 2018-09-19 15:07:07 · 3309 阅读 · 0 评论 -
自然语言处理系列-2-文本分类-传统机器学习方法
文档分类是指给定文档p(可能含有标题t),将文档分类为n个类别中的一个或多个,本文以人机写作为例子,针对有监督学习简单介绍传统机器学习方法。 文档分类的常见应用: 新闻分类: 也就是给新闻打标签,一般标签有几千个,然后要选取k个标签,多分类问题,可见2017知乎看山杯比赛该比赛是对知乎的问题打标签; 人机写作判断: 判断文章是人写的还是机器写的,二分类问题,可见CCF2017的360人机大战题目;...转载 2018-09-19 18:13:17 · 1731 阅读 · 0 评论 -
自然语言处理系列-2-文本分类-深度学习-1
深度学习模型的重点是模型的构建和调参,相对来说任务量能小不少。RNN、LSTM等模型由于拥有记忆能力,因而在文本处理上表现优异,但是缺点很明显就是计算量很大,在没有GPU加速情况下,不适合处理大批的数据,CNN在FaceBook的翻译项目上大放异彩也表明CNN在文本处理领域上的重要性,而且相对RNN来说,速度明显提升。本文尝试了多层CNN、并行CNN、RNN与CNN的结合、基于Hierarchic...转载 2018-09-19 19:52:48 · 355 阅读 · 0 评论 -
自然语言处理系列-2-文本分类-深度学习-2
3. 正文与标题 文档分为正文和标题两部分,一般两部分分开处理,可以共享Embedding层也可以不共享,人机写作分类问题中我们没有共享Embedding。 3.1 正文多层CNN,未使用标题 CNN需要设置不同大小的卷积核,并且多层卷积才能较好的捕获文本的特征,具体网络结构如下: 3.2 正文 CNN Inception,未使用标题 3.3 基于Hierarchical Attention的...转载 2018-09-19 20:08:40 · 650 阅读 · 0 评论 -
自然语言处理系列-1-基本应用
基本应用转载 2018-09-14 17:52:30 · 288 阅读 · 0 评论