自然语言处理
hufei_neo
算法里面的小学生,爱好技术,希望能与大家一起交流进步,每天进步一点点
展开
-
transformer的bert结构思维导图
Bertmodel## reference: transformers.modeling_bert.BertModel class BertModel(BertPreTrainedModel): def __init__(self, config): self.embeddings = BertEmbeddings(config) self.encoder = BertEncoder(config) self.pooler = Bert..原创 2021-02-07 16:19:05 · 1175 阅读 · 0 评论 -
bert textcnn用于文本分类
使用keras_bert来加载构建bert模型原创 2020-09-23 15:13:25 · 4868 阅读 · 3 评论 -
卷积神经网络textcnn做文本多分类
这篇博客主要是讲解经典的textcnn分类模型。关于textcnn,主要是对于文本中关键词的卷积。1.对每一句文本形成的每个词做向量(本例子词向量是在神经网络里面形成)。2.对于每一行文本形成的词的长度做统一化(一般取最长的那个文本长度的80%-90%左右)3.对于每一个词做Tokenizer,意味着对每一个词做映射,例如:'用户':14.对于Tokenizer后的data_t...原创 2019-03-07 23:39:43 · 3536 阅读 · 7 评论 -
利用word2vec词向量做textcnn的文本分类
思路如下:读取数据 数据的y值处理 把文本做word2vec模型 文本分词 把分完的词做word2vec向量映射 建立神经网络模型,并训练 预测直接上代码:import pandas as pdimport numpy as npimport jiebaimport reimport multiprocessingfrom multiprocessing i...原创 2019-08-07 11:24:00 · 8916 阅读 · 6 评论 -
利用tf-idf词向量和卷积神经网络做文本多分类
首先了解一下tf-idf,通过一段小代码import pandas as pdimport numpy as npfrom sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizercorpus = [ 'This is the first document.', 'This docu...原创 2019-06-17 13:57:35 · 2609 阅读 · 2 评论 -
bert获取词向量做textcnn文本分类
BERT其中的一个重要作用是可以生成词向量下面介绍获取词向量的方法获取BERT词向量的时候用到了肖涵博士的bert-as-service,具体使用方式如下。环境要求:python版本>=3.5,tensorflow版本>=1.10相关包的安装:pip installbert-serving-serverpip installbert-serving-cli...原创 2019-08-13 15:06:59 · 13083 阅读 · 11 评论 -
用gensim学习word2vec
转载自刘建平Pinard博客园word2vec的两种模型CBOW和Skip-Gram,以及两种解法Hierarchical Softmax和Negative Sampling,这里我们就从实践的角度,使用gensim来学习word2vec。1. gensim安装与概述 gensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的API可以用...转载 2019-07-17 09:50:56 · 417 阅读 · 0 评论 -
深度解析BERT, ELMo和NLP如何破解迁移学习
2018年是机器学习模型处理文本(更准确地说,是自然语言处理或简称NLP)的转折点。我们对如何以一种最能捕捉潜在含义和关系的方式最好地表示单词和句子的概念理解正在迅速发展。此外,NLP社区已经推出了非常强大的组件,您可以免费下载并在自己的模型和管道中使用这些组件(它被称为NLP’s ImageNet moment,,指的是多年前类似的开发如何加速(ULM-FiT has nothing to d...翻译 2019-07-25 15:24:37 · 483 阅读 · 0 评论 -
中文命名实体识别ner
转载自:https://github.com/stephen-v/zh-NER-keras原理方面知识:https://www.cnblogs.com/vipyoumay/p/ner-chinese-keras.html中文命名实体识别一般来说采用的方法为bilstm+crf这里不说原理方面,直接用keras实现中文命名实体识别首先crf函数不在keras官方里,由keras社区里贡献...转载 2019-06-18 13:42:03 · 1000 阅读 · 2 评论 -
word2vec原理(一) CBOW与Skip-Gram模型基础
转载自:刘建平Pinard 博客园地址:https://www.cnblogs.com/pinard/p/7160330.html word2vec是google在2013年推出的一个NLP工具,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。虽然源码是开源的,但是谷歌的代码库国内无法访问,因此本文的讲解word2ve...转载 2019-06-17 14:37:12 · 297 阅读 · 0 评论 -
keras的seq2seq
前面讲到seq2seq,网上有很多seq2seq的例子,今天具体解析一下keras的seq2seq(character-level)例子,代码是keras的github上的地址:https://github.com/keras-team/keras/blob/master/examples/lstm_seq2seq.py前言'''Keras(字符级)中的序列到序列示例。这个脚本演示了...翻译 2019-06-01 19:23:01 · 671 阅读 · 1 评论 -
传统的seq2seq模型与seq2seq with attention的模型原理细节解析
seq2seq(序列对序列),是一种深度学习模型,在机器翻译、文本摘要和图像字幕等方面取得了很大的成功。谷歌翻译从2016年底开始在生产中使用这种模型,是基于此基础上的Seq2seq Models With Attention。seq2seq:上下文向量成为这类型模型的瓶颈,这给模型处理长句带来了挑战。Bahdanau和Luong等人,2015年提出了一个解决方案,介绍并改进了一种称...翻译 2019-05-29 14:51:03 · 2065 阅读 · 0 评论 -
一文详解transformer(Attention Is All You Need)原理
谈起自然语言,就不得不说到现在大火的bert以及openai gpt-2,但是在理解这些模型之前,我觉得首先应该了解transformer,因本人水平有限,在看了transformer的论文之后也一知半解,在分享今天的知识之前,我们先简单了解一下seq2seq首先要说到seq2seq的发展历史,从单纯的RNN-RNN到LSTM-LSTM,再到BiLSTM-BiLSTM或者BiGRU-BiGRU...翻译 2019-05-27 16:21:48 · 6526 阅读 · 4 评论 -
聊天机器人基于索引_匹配_意图识别等方法论
随着自然语言处理(nlp)技术的不断提升,聊天机器人,智能客服,知识图谱等技术越来越被很多人认识了解,今天我带大家了解一下聊天机器人的知识架构。理论部分取自贪心学院的公开课,后期自己加以整理,希望能带大家梳理一遍1. 聊天机器人的种类和评估1.1 闲聊型机器人闲聊型的chatbot的评估:聊了多久对话轮次多少用户情感变化怎么样……目前基于的方法:生成式方...原创 2019-05-23 01:18:29 · 1195 阅读 · 0 评论 -
聊天机器人基于索引_匹配_意图识别等方法论2
上期讲到了聊天机器人基于索引_匹配_意图识别等方法论的前两种方法:基于索引,匹配https://blog.csdn.net/hufei_neo/article/details/90454410今天讲接下来的两种方法:基于意图识别和生成式(端到端的方法(seq2seq)基于意图识别流程图如下:介绍一个具体的案例:从一个订票系统来说:确定意图:搜索机票,目前实体...原创 2019-05-24 22:25:12 · 720 阅读 · 0 评论 -
关于自然语言的bert论文和推荐kashgari库
2018年底最近谷歌发布了基于双向 Transformer 的大规模预训练语言模型,该预训练模型能高效抽取文本信息并应用于各种 NLP 任务,该研究凭借预训练模型刷新了 11 项 NLP 任务的当前最优性能记录。如果这种预训练方式能经得起实践的检验,那么各种 NLP 任务只需要少量数据进行微调就能实现非常好的效果,BERT 也将成为一种名副其实的骨干网络。关于bert开源的github地址h...原创 2019-03-11 22:44:46 · 4556 阅读 · 6 评论 -
浅谈nlp知识点
深度学习主要在自然语言处理以及计算机视觉发挥着重大的作用,今天主要结合工作谈一下对于自然语言处理方面的理解,同时也对于自己的学习总结有一个很好的梳理作用。 自然语言处理包括但不仅限于文本分类,情感分析,实体识别和抽取,词性标注等等。1.分词jieba(结巴)是一个强大的分词库,完美支持中文分词。可以自己导入分词词典,也可以做词性标注,对于未登录词,使用HMM隐...原创 2019-08-26 14:15:53 · 526 阅读 · 0 评论