NLP
自然语言处理
老三是只猫
坚持不断的学习
展开
-
bert转onnx教程
【代码】bert转onnx教程。原创 2023-08-11 10:17:55 · 815 阅读 · 0 评论 -
bert_中文-文本分类_头条新闻
import torchimport torch.nn as nn from tqdm import tqdmfrom datetime import timedeltafrom pytorch_pretrained_bert import BertModel,BertTokenizer,BertAdamimport numpy as npimport time from sklearn import metricsimport torch.nn.functional as Fclass原创 2022-04-26 18:08:25 · 506 阅读 · 1 评论 -
tf1.x实现的TextCNN
1、NLP中的CNN不同于CV输入的图像像素,NLP的输入是一个个句子或者文档,句子或文档在输入时经过embedding(word2vec或者Glove)会被表示成向量矩阵,其中每一行表示一个词语,行的总数是句子的长度,列的总数就是维度。例如一个包含十个词语的句子,使用了100维的embedding,最后我们就有一个输入为10*100的矩阵。在CV中,filter是以一个patch(任意长度,任意宽度)的形式滑过遍历整个图像,但是在NLP中,filters会覆盖到所有的维度,也就是形状为[filte原创 2021-10-27 13:09:55 · 261 阅读 · 0 评论 -
paddle基于bert的情绪识别
文件结构* bert-paddle 存放预训练模型路径 * vocab.txt 字典文件,该字典为大小为21128。 * model_config.json 模型配置文件。 * model_state.pdparams 模型参数文件。* data_dir 存放数据的文件夹 * usual_train.txt 原始训练集文件。 * usual_eval_labeled.txt 原始测试集文件。* data_helper.py 数据预处理文件,将数据进行简单的格式转...原创 2021-10-24 11:37:35 · 1814 阅读 · 0 评论 -
bert模型简介、transformers中bert模型源码阅读、分类任务实战和难点总结
https://blog.csdn.net/HUSTHY/article/details/105882989原创 2021-04-06 14:54:21 · 216 阅读 · 0 评论 -
NER命名实体识别
中文NER任务简析与深度算法模型总结和实战展示流水的NLP铁打的NER:命名实体识别实践与探索原创 2021-04-06 14:46:32 · 125 阅读 · 0 评论 -
Bert提取句子特征(pytorch_transformers)
英文文本中文文本原创 2021-04-01 18:44:57 · 3534 阅读 · 0 评论 -
NLP大佬博客
大神博客地址:原创 2019-12-04 16:50:28 · 487 阅读 · 0 评论 -
textCNN在tensorflow上的故事——记一个tf入门者的学习之路
这篇博客主要用来记录一个从不会tensorflow到第一个project(textCNN—中文短文本分类)正式开张的故事,用来与同样刚入门tf的童鞋交流,大神就不必看了:本人有一定机器学习的理论基础,如果你对CNN原理不了解的可以去Coursera上看看Andrew Ng的Machine Learning课程关于NN部分,遇到不懂的百度/Google翻阅博客,基本看一部分再把不懂得琢磨查资料思...转载 2019-03-13 13:56:34 · 820 阅读 · 0 评论 -
tensorflow学习笔记之项目实战(垃圾邮件分类)
以下是利用卷积神经网络对某一个句子的处理结构图,我们进行垃圾邮件分类的原理也就是这样。我们从上图可知,将一句话转化成一个矩阵。我们看到该句话有6个单词和一个标点符号,所以我们可以将该矩阵设置为7行,对于列的话每个单词可以用什么样的数值表示。我们可以将其转化成向量的形式。所以其为7*5的矩阵,其次因为它不是图片,所以不存在通道一说,说白了就是7*5*1。其次在选择filter的时候,至少要以一个...转载 2019-03-13 13:40:36 · 952 阅读 · 0 评论 -
TensorFlow学习笔记--使用CNN做英文文本分类任务
Github源码地址 本文同时也是学习唐宇迪老师深度学习课程的一些理解与记录。文中代码是实现在TensorFlow下使用卷积神经网络(CNN)做英文文本的分类任务(本次是垃圾邮件的二分类任务),当然垃圾邮件分类是一种应用环境,模型方法也可以推广到其它应用场景,如电商商品好评差评分类、正负面新闻等。 源码与数据源码 - data_helpers.py - train.py -...转载 2019-03-13 13:39:10 · 1028 阅读 · 3 评论 -
中文复合事件抽取
ComplexEventExtractionchinese compound event extraction,中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。关于项目目前,知识图谱在学术界如火如荼地进行,但受限于知识图谱各个环节中的性能问题,还尚未能够在工业界大规模运用。而与知识图谱中以实体为知识节点,实体关系为实体关系边对知识进行组织不同,事件图谱...转载 2019-03-11 19:05:47 · 1769 阅读 · 0 评论 -
比赛必备 ︱ 省力搞定三款词向量训练 + OOV词向量问题的可性方案
传统的有:TFIDF/LDA/LSI等偏深度的有:word2vec/glove/fasttext等还有一些预训练方式:elmo / bert文章目录1 之前的几款词向量介绍与训练帖子2 极简训练glove/word2vec/fasttext2.1 word2vec的训练与简易使用2.2 glove的训练与简易使用2.3 fasttext的训练与简易使用2.4 elmo 预训练模型2....转载 2019-03-11 11:11:56 · 637 阅读 · 0 评论 -
欢简述常见的语言表示模型(词嵌入、句表示、篇章表示)
简述常见的语言表示模型(词嵌入、句表示、篇章表示)在cips2016出来之前,笔者也总结过种类繁多,类似词向量的内容,自然语言处理︱简述四大类文本分析中的“词向量”(文本词特征提取)事实证明,笔者当时所写的基本跟CIPS2016一章中总结的类似,当然由于入门较晚没有CIPS2016里面说法权威,于是把CIPS2016中的内容,做一个摘录。CIPS2016 中文信息处理报告《第五章 语言表示与深...转载 2019-03-11 11:07:44 · 1691 阅读 · 0 评论 -
文本情感分类(三):到底需不需要分词
深度学习是一种“端到端”的模型,所谓端到端就是能够将原始数据和标签输入,然后让模型自己完成一切过程-包括特征的提取、模型的学习。。而回顾我们做中文情感分类的过程,一般都是“分词——词向量——句向量(LSTM)——分类”这么几个步骤。虽然很多时候这种模型已经达到了state of art的效果,但是有些疑问还是需要进一步测试解决的。对于中文来说,字才是最低粒度的文字单位,因此从“端到端”的角度来看,应转载 2017-12-19 17:30:45 · 1519 阅读 · 0 评论 -
文本情感分类(四)
文本情感分类其实是一个二分类的问题,事实上,对于分类模型,都会存在这样一个毛病,优化目标跟考核指标不一致。通常来说,对于分类,我们都会采用交叉熵作为损失函数,他的来源就是最大似然估计,但是,我们最后的评估目标,并非要看交叉熵有多小,而是看模型的准确率,一般来说,交叉熵很小,准确率也会很高,但是这个关系并非必然的。原创 2017-12-19 17:39:29 · 1078 阅读 · 0 评论 -
中文分词系列总结
目前中文分词主要有两种思路:查词典和字标注。首先,查词典的方法有:机械的最大匹配法、最少词数法,以及基于有向无环图的最大概率组合,还有基于语言模型的最大概率组合,等等。查词典的方法简单高效(得益于动态规划的思想),尤其是结合了语言模型的最大概率法,能够很好地解决歧义问题,但对于中文分词一大难度——未登录词(中文分词有两大难度:歧义和未登录词),则无法解决;为此,人们也提出了基于字标注的思路,所谓字标转载 2017-12-19 18:34:35 · 423 阅读 · 0 评论 -
基于双向LSTM的seq2seq字标注
事不宜迟,动手最重要。词向量维度用了128,句子长度截断为32(抛弃了多于32字的样本,这部分样本很少,事实上,用逗号、句号等天然分隔符分开后,句子很少有多于32字的。)。这次我用了5tag,在原来的4tag的基础上,加上了一个x标签,用来表示不够32字的部分,比如句子是20字的,那么第21~32个标签均为x。在数据方面,我用了Bakeoff 2005的语料中微软亚洲研究院(Microsoft Re转载 2017-12-19 19:12:14 · 2301 阅读 · 0 评论 -
文本情感分类(二)
该篇文章中,主要探讨关于深度学习解决自然语言问题。 深度学习与自然语言处理 近年来,深度学习算法被应用到了自然语言处理领域,获得了比传统模型更优秀的成果。 在自然语言处理中,最核心的一个问题是,如何把一个句子用数字的形式有效的表达出来?如果能够完成这一步,句子的分类就不成问题了。显然,一个最初的思路是:给每个词语赋予唯一的编号1,2,3,4…,然后把句子看成是编号的集合,比如假设1,2,3,4原创 2017-12-19 11:01:21 · 1881 阅读 · 0 评论 -
基于Gensim的维基百科语料库中文词向量训练
环境: Win10 +Anaconda(自带Python3.6) IDE: Pycharm (其Interperter使用的是Anaconda自带的Python3.6)安装Gensim库:在Anaconda Prompt中输入:pip install gensim ...转载 2019-03-04 00:05:32 · 743 阅读 · 0 评论 -
python︱gensim训练word2vec及相关函数与功能理解
文章目录一、gensim介绍二、训练模型1、训练2、模型使用.3、模型导出与导入4、增量训练5、bow2vec + TFIDF模型5.1 Bow2vec5.2 tfidf5.3 继续转换相关转换词频-逆文档频(Term Frequency * Inverse Document Frequency, Tf-Idf)潜在语义索引(Latent Sem...转载 2019-03-04 00:38:27 · 2423 阅读 · 0 评论 -
python-keras文本分类:pretrain词向量+1D卷积神经网络
基于keras实现 利用之前训练好的词向量,基于keras使用1D卷积神经网络完成文本分类任务准备工作 1:训练好的词向量 2:用于训练的文本(已完成分词,每篇文章且还有对应的label)from __future__ import print_functionimport osimport sysimport numpy as npfrom keras.preprocessing.t转载 2018-01-04 00:12:37 · 2567 阅读 · 0 评论 -
文本情感分类(一)
基于情感词典的文本情感分类 古典文本分类的流程: 根据上图,我们可以通过以下几个步骤实现基于情感词典的文本情感分类: 1:预处理 2:分词 3:训练情感词典 4:判断。 以下主要分几个不追将上述上面的内容 一、文本的预处理 这部分的主要内容来自爬虫获取。 二、分词 选用结巴分词即可 三、载入情感词典 一般来说,词典是文本挖掘的最核心的部分,对于情感分类也不例外。情感词典主要原创 2017-12-19 09:04:04 · 4488 阅读 · 0 评论 -
使用BERT获取中文词向量
BERT其中的一个重要作用是可以生成词向量,它可以解决word2vec中无法解决的一词多义问题。然而BERT获取词向量的门槛要比word2vec要高得多。笔者在这里介绍一下如何获取BERT的词向量。笔者在获取BERT词向量的时候用到了肖涵博士的bert-as-service,具体使用方式如下。环境...原创 2019-03-04 17:15:41 · 16655 阅读 · 21 评论 -
文本挖掘
jieba是一个优秀的中文分词模块,使用python编写,并在Github上开源。 使用jieba分词可以将一整串的中文句式切分为独立的语言元素。scikit-learn也是由python编写的机器学习算法库,其实现了许多有用的算法,对于文本分类来说,使用sklearn分类模型所需要的向量形式。使用sklearn 的 naive_bayes 算法库 可以快速构建一个朴素贝叶斯模型。对于文本分类这种动转载 2016-08-22 00:51:55 · 1265 阅读 · 1 评论