自然语言处理
Mr愚先森
这个作者很懒,什么都没留下…
展开
-
如何实践一个完整的数据挖掘项目
机器学习项目:1、抽象成数学问题(明确问题)2、获取数据3、特征预处理与特征选择4、训练模型与调优5、模型诊断6、模型融合(非必须) 大部分机器学习项目死在第1步和第2步,平时我们说的机器学习,指的是3、4、5这3步,实践中,其实最难的是业务理解这一步,业务理解OK了,后面的一切都有章可循。NLP项目:1、获取语料: 已有语...转载 2019-11-25 10:36:21 · 794 阅读 · 0 评论 -
完全图解RNN、RNN变体、Seq2Seq、Attention机制
本文主要是利用图片的形式,详细地介绍了经典的RNN、RNN几个重要变体,以及Seq2Seq模型、Attention机制。希望这篇文章能够提供一个全新的视角,帮助初学者更好地入门。一、从单层网络谈起在学习RNN之前,首先要了解一下最基本的单层网络,它的结构如图:输入是x,经过变换Wx+b和激活函数f得到输出y。相信大家对这个已经非常熟悉了。二、经典的RNN结构(N vs N)...转载 2019-05-16 20:17:13 · 204 阅读 · 0 评论 -
了解LSTM网络
递归神经网络人类不会每时每刻都开始思考。当你阅读这篇文章时,你会根据你对之前单词的理解来理解每个单词。你不要扔掉所有东西,然后再从头开始思考。你的想法有持久性。传统的神经网络无法做到这一点,这似乎是一个主要的缺点。例如,假设您想要对电影中每个点发生的事件进行分类。目前尚不清楚传统神经网络如何利用其对电影中先前事件的推理来告知后者。循环神经网络解决了这个问题。它们是带有循环的网络,允许信...转载 2019-05-20 10:52:38 · 324 阅读 · 0 评论 -
重磅 | 完备的 AI 学习路线,最详细的资源整理!
今天一早看到了 Datawhale 推送的一篇文章,总结了非常全面的关于 AI 的学习资料,作者是 Datawhale,ApacheCN,AI 有道和黄海广博士联合整理贡献的,可谓是非常良心了,如果大家有想入门学习 AI 的,可以来看下这些资料,希望对你有所帮助哈。转载来源 公众号:Datawhale阅读本文大概需要 13 分钟。【导读】本文由知名开源平台,AI 技...转载 2019-05-06 10:00:33 · 784 阅读 · 0 评论 -
NLP第1课:中文自然语言处理的完整机器处理流程
2016年全球瞩目的围棋大战中,人类以失败告终,更是激起了各种“机器超越、控制人类”的讨论,然而机器真的懂人类吗?机器能感受到人类的情绪吗?机器能理解人类的语言吗?如果能,那它又是如何做到呢?带着这样好奇心,本文将带领大家熟悉和回顾一个完整的自然语言处理过程,后续所有章节所有示例开发都将遵从这个处理过程。首先我们通过一张图来了解 NLP 所包含的技术知识点,这张图从分析对象和分析内容两个不同的...转载 2019-03-16 10:11:18 · 528 阅读 · 0 评论 -
神经网络入门
人工智能的底层模型是"神经网络"(neural network)。许多复杂的应用(比如模式识别、自动控制)和高级模型(比如深度学习)都基于它。学习人工智能,一定是从它开始。什么是神经网络呢?网上似乎缺乏通俗的解释。前两天,我读到 Michael Nielsen 的开源教材《神经网络与深度学习》(Neural Networks and Deep Learning),意外发现里面的解释非常...转载 2019-03-19 18:29:22 · 201 阅读 · 0 评论 -
关键词提取算法:TF-IDF、TextRank、LSA/LSI/LDA
首先推荐一下在NLP方面比较好的一个博客,本文也是参考这位博主写的。链接点这里。本文主要对TF-IDF代码重新改写了一下,几个函数顺序调用比原文较好理解一点,对于刚入NLP的我们来说用来学习是挺好的,如果掌握的就可以尝试用面向对象的思想来写。LSA/LSI/LDA这集中算法应为没有接触过,多以暂时不介绍,想了解的可以参考原文。如果有时间我再去理解修改。1、关键词提取技术概述: 相...原创 2019-02-19 17:53:42 · 11385 阅读 · 2 评论 -
TF-IDF与余弦相似性的应用(三):自动摘要
有时候,很简单的数学方法,就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。今天,依然继续这个主题。讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。 如果能从3000字的文章,提炼出150字的摘要,就可以为读者节省大量阅读时间。由...转载 2019-02-13 14:10:01 · 268 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(二):找出相似文章
今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。为了简单起见,我们先从句子着手。 句子A:我喜欢看电视,不喜欢看电影。...转载 2019-02-13 13:59:42 · 191 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(一):自动提取关键词
这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用10分钟就可以理解,这就是我今天想要介绍的TF-IDF算法。让我们从一个实例开始讲起。假定现在有一篇长文《中国的蜜蜂养殖》,我们准备用计算机提取它的关键词。 一个容易想到的思路,就是找到出...转载 2019-02-13 13:51:15 · 1791 阅读 · 0 评论 -
推荐算法概述(基于用户的协同过滤算法、基于物品的协同过滤算法、基于内容的推荐算法)
目前推荐系统研宄的主要趋势是从单一的、独立的推荐系统算法逐渐向组合多种推荐算法形成混合式的综合推荐算法方向发展,越来越多的结合用户标签数据、社交网络数据、上下文信息、地理位置信息。群体推荐也成为一个目前非常热门的主题。并且有些也用到了推荐系统领域之外的算法,如模糊集概念、人工智能领域的遗传算法,贝叶斯网络等。当然也有一些研究还在不断深入挖掘传统、经典的如基于内容过滤、协同过滤等算法...转载 2019-02-13 11:06:37 · 2295 阅读 · 0 评论 -
NLP深度学习:近期趋势的总体概述
作者:Elvis Saravia编译:Bot编者按:Elvis Saravia是“国立清华大学”(台湾)的博士生,主要研究NLP和情感计算。今年8月,Tom Youn等人更新了去年发表在IEEE杂志上的重磅文章《Recent Trends in Deep Learning Based Natural Language Processing》,总结了到今年为止,基于深度学习的自然语言处理(N...转载 2019-02-18 10:10:29 · 669 阅读 · 0 评论 -
从基础到实战的 NLP 学习清单
先mark起来 作为一名自然语言初学者,在 NLP 里摸爬滚打了许久,一些心得,请壮士收下。谈一下自己探索过的摸爬滚打过的方法,大致可以分为二种。第一种,在实践中学习,找一个特定的任务,譬如文本分类、情感分析等。然后以做好任务为导向的去挖掘和这一个任务相关的知识点。由于没有系统的学习,肯定会遇到各种各样的拦路虎问题,当遇到不懂的概念时,利用百度/谷歌查阅相关资料去理解学习这个概...转载 2019-02-16 15:49:04 · 556 阅读 · 0 评论 -
史上最强NLP知识集合:知识结构、发展历程、导师名单
转载自 数据简化DataSimp 作者 秦陇纪 郭一璞 编辑 量子位 报道 | 公众号 QbitAI本篇推送包含三篇文章,《自然语言处理技术发展史十大里程碑》《语言处理NLP知识结构》《自然语言处理NLP国内研究方向机构导师》总共超过20000字,量子位建议先码再看。自然语言处理技术发展史十大里程碑文|秦陇纪,参考|黄昌宁、张小凤、Sebatian Ruder...转载 2019-02-21 20:12:59 · 1737 阅读 · 1 评论 -
使用nltk分析文本情感
情感分析是NLP最受欢迎的应用之一。情感分析是指确定一段给定的文本是积极还是消极的过程。下面的代码是借用其他博主的, 但是我对代码的输入数据格式以及类型做了一个简单解析供大家参考。另外我发在nltk在处理中文时的切分统计不是很好,中文和英文文本的情感分析思路上是一致的,不同之处在于中文在分析前需要进行分词,然后才能用nltk处理(nltk 的处理粒度一般是词),因此在切分中文的时候...原创 2019-01-30 10:28:50 · 13137 阅读 · 2 评论 -
python的nltk中文使用和学习资料汇总帮你入门提高
nltk是一个python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具.1. nltk的安装资料1.1: 黄聪:Python+NLTK自然语言处理学习(一):环境搭建 http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html 这个图...转载 2019-01-30 09:45:43 · 1059 阅读 · 0 评论