![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 93
Vinsmoke -Hou
这个作者很懒,什么都没留下…
展开
-
QA机器人
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、问答机器人的实现逻辑1.1 对问题的处理1.2 问题的召回1.3 问题的排序二、QA机器人的召回1.对现有问答对的准备2.把问题转化为向量3.计算相似度3.1 pysparnn的介绍3.2 使用pysparnn完成召回的过程3.3 pysparnn的原理介绍4. 召回过程优化4.1 通过BM25算法替代TFIDF4.2 BM25算法的实现4.3 使用Fasttext实现获取句子向量4.4 训练模型和封装代码总结前言提示原创 2021-09-14 17:02:57 · 728 阅读 · 1 评论 -
Seq2Seq模型
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、Seq2Seq模型1、Seq2Seq的介绍2、Seq2Seq模型的实现2.1、实现流程2.2、文本转化为序列、准备Dataloader二、模型的搭建1.准备编码器2. 准备解码器3. seq2seq模型搭建、训练和保存三、整体流程前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正原创 2021-08-31 17:26:49 · 1454 阅读 · 0 评论 -
LSTM api的介绍
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录目标一、LSTM介绍二、LSTM使用实例GRU API2.双向LSTM3. LSTM和GRU的使用注意点4. 使用LSTM完成文本情感分类目标1. 知道LSTM和GRU的使用方法及输入输出格式2. 能够应用LSTM和GRU实现文本情感分类提示:以下是本篇文章正文内容,下面案例可供参考一、LSTM介绍LSTM和GRU都是由torch.nn提供,通过观察文档,可知LSTM的参数:torch.nn.LSTM(input_原创 2021-08-21 17:33:09 · 634 阅读 · 0 评论 -
文本情感分类
1.知道文本处理的基本方法2.能够使用数据实现情感分类文章目录一、案例介绍二、思路分析1.准备数据集2.读入数据文本序列化(word2sequence)模型搭建总结一、案例介绍现在我们有一个经典的数据集IMDB数据集,地址http://ai.stanford.edu/~amaas/data/sentiment/:,这是一份包含了5万条流行电影的评论数据,其中训练集25000条,测试集25000条,数据格式如下:下边左边为名称,其中名称包含两部分,分别是序号和情感评分(1-4位neg,5-10原创 2021-08-21 15:52:51 · 376 阅读 · 0 评论 -
RNN、LSTM、GRU
文章目录目标一、循环神经网络的介绍二、LSTM和GRU2.1 LSTM的基础介绍2.2 LSTM的核心2.3 LSTM中门结构2.3.1 遗忘门2.3.2 输入门2.3.3 输出门2.4 GRU,LSTM的变形2.5 双向LSTM目标1. 能够说出循环神经网络的概念和作用2. 能够说出循环神经网络的类型和应用场景3. 能够说出LSTM的作用和原理4. 能够说出GRU的作用和原理提示:以下是本篇文章正文内容,下面案例可供参考一、循环神经网络的介绍为什么有了神经网络还需要循环神经网络?在普原创 2021-08-20 15:43:36 · 266 阅读 · 0 评论 -
自然语言处理
文章目录前言一、文本的tokenization1.1 概念和工具的介绍1.2 中英文分词的方法二、N-gram表示方法三、向量化1.one-hot编码2.word embedding3. word embedding API3.数据的形状变化前言1. 知道token和tokenization2.知道N-gram的概念和作用3.知道文本向量化表示的方法本文内容是视频学习内容,不喜勿喷一、文本的tokenization1.1 概念和工具的介绍tokenization是通常所说的分词,分出的每.原创 2021-08-17 16:34:53 · 244 阅读 · 0 评论 -
Bert核心代码解读
前面已经介绍了如何先测试一个bert任务,对这方面还不了解的可以看一下前面的博客。BERT 最主要的模型实现部分---BertModel,代码位于modeling.py 模块为了便于理解,下面的代码中的batch_size假设成8,seq_length长度是128。配置类(BertConfig)class BertConfig(object): """BERT模型的配置类....原创 2020-04-06 15:52:10 · 3908 阅读 · 2 评论 -
Bert模型详解和训练实例
前面已经介绍了transformer,理解了transformer,那么理解bert就简单多了。对transformer不是很了解的可以跳转到https://blog.csdn.net/one_super_dreamer/article/details/105181690Bert简介BERT来自Google的论文Pre-training of Deep Bidirectional Tran...原创 2020-03-30 20:03:04 · 25365 阅读 · 24 评论 -
深度学习在NLP领域的发展(一)
DeepLearning在NLP领域的发展 三个阶段: Word Embedding Word2Vec GloVe RNN改进和扩展 LSTM/GRU Seq2Seq Attention/Self-Attention ContextualWordEmbedding E...原创 2020-02-29 18:45:54 · 929 阅读 · 1 评论 -
module 'tensorflow.python.keras.backend' has no attribute 'get_graph'
再导入Keras时出现>>> import kerasUsing TensorFlow backend.Traceback (most recent call last): File "<stdin>", line 1, in <module> File "E:\program\Anaconda\Anaconda3\envs\tfgpue...原创 2020-02-27 19:02:27 · 604 阅读 · 0 评论 -
Hanlp添加未登陆词
本人使用的是maven导入portable版的hanlp<!-- hanlp --> <dependency> <groupId>com.hankcs</groupId> <artifactId>hanlp</artifactId> <version>p...原创 2019-12-06 10:36:02 · 221 阅读 · 0 评论 -
学习使用Ansj分词工具(一)
Ansj简介ansj对文件读取分词每秒钟大约30万字,准确率能达到96%以上。ansj第一步会进行原子切分和全切分,并且是在同时进行的。所谓原子,是指短句中不可分割的最小语素单位。例如,一个汉字就是一个原子。全切分,就是把一句话中的所有词都找出来,只要是字典中有的就找出来。例如,“提高中国人生活水平”包含的词有:提高、高中、中国、国人、人生、生活、活水、水平。接着以“提高中国人生活水平”为...原创 2019-08-15 13:27:58 · 829 阅读 · 1 评论