![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 93
自然语言处理
AI浩
2022年博客之星Top8,2021年博客之星Top6,博客专家,华为云云享专家,十佳博主,阿里云专家博主,拥有多项发明专利并参与过国家重大专项,拥有丰富的开发经验。注重理论与实践的结合,让AI学起来不再枯燥。如果大家在看文章的时候,发现了文章的错误,烦请指出,我会及时纠正。
展开
-
第三届阿里云磐久智维算法大赛——GRU BaseLine
赛题比赛链接:第三届阿里云磐久智维算法大赛-天池大赛-阿里云天池 (aliyun.com)大赛概况庸医只知头痛医头脚痛医脚,凡良医者,必会抽丝剥茧,察其根本,方得药到病除。第一届和第二届磐久智维算法大赛,我们针对异常预测开展了积极的探索和卓有成效的实践。本届大赛我们延续对异常/故障这一领域的深入挖掘,以根因诊断为赛题,和各界同仁一起探讨根因诊断的新思路,共同追逐这一人工智能应用的明珠。在大规模IT设备、应用运维过程中,故障无可避免,而关键日志则是技术人员排查根因,对症下药的重要依据。近年来围原创 2022-03-20 14:39:54 · 4215 阅读 · 2 评论 -
NLP进阶,使用TextRNN和TextRNN_ATT实现文本分类
TextRNNTextRNN仅仅是将Word Embedding后,输入到双向LSTM中,然后对最后一位的输出输入到全连接层中,在对其进行softmax分类即可,模型如下图:代码:class RNN(nn.Module): def __init__(self, vocab_size, embedding_dim, hidden_dim, output_dim, n_layers=2, bidirectional=True, dropout=0.2, pad_原创 2021-11-12 21:05:45 · 1385 阅读 · 2 评论 -
NLP进阶,Bert+BiLSTM情感分析实战
Bert+BiLSTM做情感分析情感分析情感分析一类的任务比如商品评价正负面分析,敏感内容分析,用户感兴趣内容分析、甚至安全领域的异常访问日志分析等等实际上都可以用文本分类的方式去做,情感分析的问题本质是个二分类或者多分类的问题。什么是Bert?BERT的全称为Bidirectional Encoder Representation from Transformers,是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用原创 2021-11-12 15:47:10 · 16871 阅读 · 78 评论 -
xlnet+bilstm实现菜品正负评价分类
摘要CMU和google brain联手推出了bert的改进版xlnet。在这之前也有很多公司对bert进行了优化,包括百度、清华的知识图谱融合,微软在预训练阶段的多任务学习等等,但是这些优化并没有把bert致命缺点进行改进。xlnet作为bert的升级模型,主要在以下三个方面进行了优化采用AR模型替代AE模型,解决mask带来的负面影响双流注意力机制引入transformer-xl今天我们使用xlnet+BiLSTM实现一个二分类模型。数据集数据集如下图:是顾客对餐厅的正负评价。正面原创 2021-11-02 09:42:10 · 1020 阅读 · 21 评论 -
Bert实战:使用Bert实现文本分类。
1、简介最近使用Bert实现了文本分类,模型使用的是bert的base版本。本文记录一下实现过程。数据集:cnews,包含三个文件,分别是cnews.train.txt、cnews.test.txt、cnews.val.txt。类别包含10类,分别是:体育、娱乐、家居、房产、教育、时尚、时政、游戏、科技、财经。代码参考:https://github.com/BeHappyForMe/Multi_Model_Classification,对代码的一些部分作了修改和注解。关注公众号“AI小浩”,回复“be原创 2021-10-25 19:54:23 · 20528 阅读 · 43 评论 -
TextCNN代码解读及实战
摘要这几天使用TextCNN做文本分类,记录一下学习过程,数据集使用cnew,代码参考github上的代码,地址:https://github.com/BeHappyForMe/Multi_Model_Classification,对重点的代码做了注解,方便自己的理解。关注公众号“AI小浩”,回复“textcnn实战”,获取代码和数据集。Text模型的计算过程TextCNN的详细过程原理图如下:代码:class CNN(nn.Module): def __init__(self, voc原创 2021-10-15 10:38:37 · 9553 阅读 · 10 评论 -
pkuseg分词库以及使用
1、什么是pkusegpkuseg 是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。github地址: https://github.com/lancopku/pkuseg-python2、特点多领域分词。不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点,用户可以自由地选择不同的模型。 我们目前支持了新闻领域,网络领域,医药领域,旅游领域,以及混合领域的分词预训练模型。在使用中,如果用户明确待分词的领域,可加.原创 2021-10-14 14:06:30 · 2471 阅读 · 0 评论 -
一份详细的LSTM和GRU图解
在这篇文章中,我们将从LSTM和GRU背后的直觉开始。然后我(Michael)将解释使LSTM和GRU表现良好的内部机制。如果你想了解这两个网络背后的机制,那么这篇文章就是为你准备的。短期记忆RNN受到短期记忆的影响。如果序列很长,他们将很难将信息从较早的时间步传送到后面的时间步。因此,如果你尝试处理一段文本进行预测,RNN可能会遗漏开头的重要信息。在反向传播期间,RNN存在梯度消失的问题(梯度用于更新神经网络权重的值)。梯消失度问题是当梯度反向传播随着时间的推梯度逐渐收缩。如果梯度值变得非常小,则不转载 2021-09-19 06:28:15 · 894 阅读 · 0 评论 -
医学影像报告异常检测线上0.895开源
赛题:全球人工智能技术创新大赛赛道一: 医学影像报告异常检测赛题背景影像科医生在工作时会观察医学影像(如CT、核磁共振影像),并对其作出描述,这些描述中包含了大量医学信息,对医疗AI具有重要意义。本任务需要参赛队伍根据医生对CT的影像描述文本数据,判断身体若干目标区域是否有异常以及异常的类型。初赛阶段仅需判断各区域是否有异常,复赛阶段除了判断有异常的区域外,还需判断异常的类型。判断的结果按照指定评价指标进行评测和排名,得分最优者获胜。赛题描述及数据说明sample数据医生对若干CT的影像原创 2021-04-18 09:20:35 · 7039 阅读 · 0 评论 -
【RNN实战进阶】手把手教你如何预测当天股票的最高点
摘要在头条上有很多人做股市的分析,分析每天大盘的涨跌,我观察了几位,预测的都不理想,我一直想着用AI去预测大盘的涨跌。股市数据是个时间序列数据,用RNN再合适不过了,今天我用GRU手把手教大家实现这一算法。免责声明算法的结果不能作为投资的依据!!!如果你根据算法的结果去投资,赔钱别找我啊!获取原始数据网站的地址:http://quotes.money.163.com/trade/lsjysj_zhishu_000001.html在这上面能找到大盘额历史数据,我们选择所有的数据下载下来即可。下原创 2021-06-30 16:32:18 · 1293 阅读 · 7 评论 -
【RNN从入门到实战】GRU入门到实战——使用GRU预测股票。
摘要 GRU是LSTM网络的一种效果很好的变体,它较LSTM网络的结构更加简单,而且效果也很好,因此也是当前非常流形的一种网络。GRU既然是LSTM的变体,因此也是可以解决RNN网络中的长依赖问题。 在LSTM中引入了三个门函数:输入门、遗忘门和输出门来控制输入值、记忆值和输出值。如图:而在GRU模型中只有两个门:分别是更新门和重置门。具体结构如下图原创 2021-06-28 11:36:58 · 12976 阅读 · 20 评论 -
【环境空气质量评价挑战赛】baseline——使用lightgbm+特征工程。
赛题一、赛事背景随着工业化和城镇化的快速发展,环境问题日益突出。空气污染是全球最重要的环境问题之一,影响着人们的健康、生产和生活。为了改善空气质量,我国加大监测和环保力度,增加空气质量监测站点,实施蓝天保卫战,并将空气质量水平与污染治理水平纳入部门工作考核。科学有效地评价空气质量,能够为预防和治理空气污染提供科学依据,有利于交通或环境管理部门实施污染控制,降低空气污染的影响,改善人类福祉。由于大气环境是受污染源、气象、人为因素的影响,因此需要客观综合地评价空气质量。二、赛事任务每日环境空气质量评价需原创 2021-06-24 17:52:30 · 4334 阅读 · 11 评论 -
【RNN入门到实战】LSTM从入门到实战——实现空气质量预测
摘要LSTM是一种时间递归神经网络,它出现的原因是为了解决RNN的一个致命的缺陷。RNN在处理长期依赖(时间序列上距离较远的节点)时,因为计算距离较远的节点之间的联系时会涉及雅可比矩阵的多次相乘,会造成梯度消失或者梯度膨胀的现象。为了解决该问题,研究人员提出了许多解决办法,例如ESN(Echo State Network),增加有漏单元(Leaky Units)等等。其中最成功应用最广泛的就是门限RNN(Gated RNN原创 2021-06-22 22:24:55 · 8545 阅读 · 9 评论 -
【RNN基础】——一文搞明白RNN
1、含义循环神经网络(Recurrent Neural Network, RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)[1]。对循环神经网络的研究始于二十世纪80-90年代,并在二十一世纪初发展为深度学习(deep learning)算法之一[2],其中双向循环神经网络(Bidirectional RNN, Bi-RNN)和长短期记忆网络...原创 2021-06-18 22:18:23 · 25425 阅读 · 12 评论 -
NLP数据扩增方法
扩增方法:回译将文本数据翻译成某种语言,然后再将其翻译回原始语言。回译可以生成带有不同单词的文本数据,同时保留文本数据的上下文。一般情况下回译需要借助翻译API来完成,需要耗费一定的时间。扩增方法:同义词替换从句子中随机选择N个非停止词,随机选择的同义词替换这些单词。替换前:Thisarticlewill focus on summarizing data augmentationtechniquesin NLP.替换后:Thiswrite-upwill focus on...转载 2021-05-06 09:55:23 · 789 阅读 · 0 评论