NLP
文章平均质量分 96
安替-AnTi
研究生在读
展开
-
从文档中提取关键字
想象一下你手上有数百万(也许数十亿)的文本文档。无论是社交媒体数据还是社区论坛帖子。生成数据时没有标记。给那些文件贴标签真是费劲。手工标注不实用;现有的标签列表很快就会过时。雇用一家供应商公司来做标记工作太贵了。你可能会说,为什么不使用机器学习呢?比如,普通网络深度学习。但是,神经网络首先需要一些训练数据。并且要适合你数据集的训练数据。那么,有没有一个解决方案可以让我们满足:不需要训练数据。手动干扰最小,可自动运行。自动捕获新单词和短语。这篇文章记录了我是如何在Python中提取关键字,并转载 2021-08-10 19:14:43 · 1732 阅读 · 1 评论 -
NLP-对话聊天机器人
课程来在七月在线的自动聊天机器人项目班课程是2017年出来的,现在看除了一些基本的NLP理论知识,对机器人的理解和工业开发上已经有了很大的改变。如果对NLP和聊天机器人感兴趣的同学可以可以看看本篇笔记,我会在后面加上一些现在比较前言的知识和实战。Github:https://github.com/AnTi-anti/chat_bot第一课 聊天机器人的基础模型与综述第一课PPT:点我课程代码:点我第二课 NLP基础及扫盲主要内容:NLTK语料库–corpus文本处理流程原创 2020-08-28 18:42:07 · 2888 阅读 · 1 评论 -
sklearn 中 CountVectorizer、TfidfTransformer 和 TfidfVectorizer
文本数据预处理的第一步通常是进行分词,分词后会进行向量化的操作。在介绍向量化之前,我们先来了解下词袋模型。词袋模型(Bag of words,简称 BoW )词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重。而权重与词在文本中出现的频率有关。词袋模型首先会进行分词,在分词之后,通过统计每个词在文本中出现的次数,我们就可以得到该文本基于词的特征,如果将各个文本样本的这些词与对应的词频放在一起,就是我们常说的向量化。向量化完毕后一般也会使用 TF-IDF 进行特征的权重修正,再将原创 2020-08-28 14:30:10 · 745 阅读 · 0 评论 -
意力模型Attention
注意力模型最近几年在深度学习各个领域被广泛使用,无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中,都很容易遇到注意力模型的身影。所以,了解注意力机制的工作原理对于关注深度学习技术发展的技术人员来说有很大的必要。人类的视觉注意力从注意力模型的命名方式看,很明显其借鉴了人类的注意力机制,因此,我们首先简单介绍人类视觉的选择性注意力机制。视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更原创 2020-08-28 12:34:18 · 388 阅读 · 0 评论 -
利用Microsoft COCO数据集和pytorch实现看图说话
对于没有GPU的同学,本文建议在Google Colab环境下进行代码编程。本文用浅显易懂的方式解释了什么是“看图说话”(Image Captioning),借助Github上的PyTorch代码带领大家自己做一个模型。介绍深度学习目前是一个非常活跃的领域—每天都会有许多应用出现。进一步学习Deep Learning最好的方法就是亲自动手。尽可能多的接触项目并且尝试自己去做。这将会帮助你更深刻地掌握各个主题,成为一名更好的Deep Learning实践者。这篇文章将和大家一起看一个有趣的多模态主题,原创 2020-08-28 11:26:58 · 2068 阅读 · 3 评论 -
Word2Vec
在聊 Word2vec 之前,先聊聊 NLP。NLP里面,最细粒度的是词语,词语组成句子,句子再组成段落、篇章、文档。所以处理 NLP 的问题,首先就要拿词语开刀。举个简单例子,判断一个词的词性,是动词还是名词。用机器学习的思路,我们有一系列样本(x,y)(x,y)(x,y),这里 xxx 是词语,yyy 是它们的词性,我们要构建 f(x)−>yf(x)->yf(x)−>y 的映射,但这里的数学模型 fff(比如神经网络、SVM)只接受数值型输入,而NLP里的词语,是人类的抽象总结,是符原创 2020-08-27 12:48:23 · 2226 阅读 · 0 评论 -
NLP-gensim库
Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。LSILDAHDPDTMDIMTF-IDFword2vec、paragraph2vec基本概念语料(Corpus):一组原始文本的集合,用于无监督地训练文本主题的隐层结构。语料中不需要人工标注的附加信息。在Gens原创 2020-08-27 12:02:34 · 777 阅读 · 0 评论 -
TF-IDF算法介绍及实现
1 TF-IDF算法介绍TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF的主要思想是:如果某个单词在一篇文章中出现的频转载 2020-08-26 19:06:12 · 1273 阅读 · 0 评论