![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 91
_APTX4869
这个作者很懒,什么都没留下…
展开
-
机器学习中样本不平衡的处理方法
文章目录为什么样本不平衡会对结果造成影响样本不平衡的处理方法欠采样欠采样改进方法1欠采样改进方法2过采样过采样改进方法1过采样代表算法:SMOTE 算法阈值移动在现实收集的样本中,正负类别不均衡是现实数据中很常见的问题。一个分类器往往 Accuracy 将近90%,但是对少数样本的判别的 Recall 却只有10%左右。这对于我们正确找出少数类样本非常不利。举例来说:在一波新手推荐的活动中,预测用户是否会注册的背景下,不注册的用户往往是居多的,这个正负比例通常会是1:99甚至更大。一般而言,正负样本比原创 2021-03-03 11:00:04 · 686 阅读 · 0 评论 -
NLP教程笔记:NLP模型的多种应用
NLP教程TF_IDF词向量句向量Seq2Seq 语言生成模型CNN的语言模型语言模型的注意力Transformer 将注意力发挥到极致ELMo 一词多义GPT 单向语言模型BERT 双向语言模型NLP模型的多种应用目录NLP教程分类情感分析搜索公开搜索私密搜索问答知识图谱任务型机器人FAQ聊天生成翻译创作未来分类最容易想到的一种NLP应用就是将语言进行分类了。 不管你用什么模型(RNN,ELMo, GPT还是BERT), 甚至是未来还未研发出来的模型。他们都可以算是一种理解语原创 2021-02-07 21:56:57 · 962 阅读 · 2 评论 -
NLP教程笔记:BERT 双向语言模型
NLP教程TF_IDF词向量句向量Seq2Seq 语言生成模型CNN的语言模型语言模型的注意力Transformer 将注意力发挥到极致ELMo 一词多义GPT 单向语言模型BERT 双向语言模型目录NLP教程怎么了怎么训练代码总结全部代码怎么了BERT 和 GPT 还有 ELMo 是一个性质的东西。 它存在的意义是要变成一种预训练模型,提供 NLP 中对句子的理解。ELMo 用了双向 LSTM 作为句子信息的提取器,同时还能表达词语在句子中的不同含义;GPT 呢, 它是一种单向原创 2021-02-07 21:08:15 · 2584 阅读 · 0 评论 -
NLP教程笔记:GPT 单向语言模型
NLP教程TF_IDF词向量句向量Seq2Seq 语言生成模型CNN的语言模型语言模型的注意力Transformer 将注意力发挥到极致GPT 单向语言模型目录NLP教程GPT是啥学习案例代码GPT注意力结果还能怎么玩全部代码今天要学习的是一个在自然语言中比ELMo更厉害的模型。 这个模型玩的不是RNN那一套循环机制,而是Transformer的注意力机制。 它成功地将Transformer的注意力运用在语言模型中,并且让模型能够非常精准的预测出答案,在很多方面让人类打开眼界。这个模原创 2021-02-07 17:16:57 · 3027 阅读 · 0 评论 -
NLP教程笔记:ELMo 一词多义
NLP教程TF_IDF词向量句向量Seq2Seq 语言生成模型CNN的语言模型语言模型的注意力Transformer 将注意力发挥到极致目录NLP教程怎么了词向量有问题如何训练学习案例代码总结全部代码怎么了不管是图片识别还是自然语言处理,模型都朝着越来越臃肿,越来越大的方向发展。 每训练一个大的模型,都会消耗掉数小时甚至数天的时间。我们并不希望浪费太多的时间在训练上,所以拿到一个预训练模型就十分重要了。 基于预训练模型,我们能够用较少的模型,较快的速度得到一个适合于我们自己数据的新模型原创 2021-02-07 14:51:59 · 1426 阅读 · 0 评论 -
NLP教程笔记:Transformer 将注意力发挥到极致
NLP教程TF_IDF词向量句向量Seq2Seq 语言生成模型CNN的语言模型语言模型的注意力Transformer 将注意力发挥到极致目录NLP教程语言多次注意力Transformer注意力模型全都是注意翻译代码结果讨论全部代码可视化语言多次注意力如果哪天有一位异性好友对你表白的回复是:“你人很好,很感谢有你的陪伴”。情场新手刚上车,第一眼看起来,好像是这个女生再夸我,激动得我眼泪要掉下来。带着这句话,让我一天都有好心情。可是当我吃完饭,再回想起她说我“人很好”,“感谢”我,这句话原创 2021-02-06 19:20:25 · 920 阅读 · 2 评论 -
NLP教程笔记:语言模型的注意力
NLP教程TF_IDF词向量句向量Seq2Seq 语言生成模型CNN的语言模型语言模型的注意力目录NLP教程自然语言模型注意力Seq2Seq Attention 注意力机制翻译代码思考自然语言模型注意力如果说在视觉上,机器可以注意到某一个区域,那么在语言上,就是注意到某一个或多个词汇。 如果我们的任务不同,这些注意力可能会想去获取不同区域的词汇。我们举个例子如果男生代表着一种属性的注意力模型,面对这样一长串销售语言,它注意到的就是关于性能和配置的信息。 你看,如果有了注意力,那么我们原创 2021-02-06 11:27:02 · 642 阅读 · 0 评论 -
NLP教程笔记:CNN的语言模型
NLP教程TF_IDF词向量句向量Seq2Seq 语言生成模型CNN的语言模型目录NLP教程怎么卷积翻译秀代码局限性全部代码一想到用深度学习解决语言问题,我们自然而然的就能想到使用循环神经网络RNN这一系列的模型。 而像CNN这种专注于图像处理的模型在语言领域也能胜任吗?答案是可以的。而这次,我们就尝试使用一种CNN模型,把文字描述转化成向量表达。用一句话来概括这个CNN语言模型,我想可以这样说: 用N个不同长度时间窗口,以CNN的卷积方法在句子中依次滑动,让模型拥有N种阅读的眼界宽度,综原创 2021-02-05 21:16:07 · 907 阅读 · 0 评论 -
NLP教程笔记:Seq2Seq 语言生成模型
NLP教程TF_IDF词向量句向量Seq2Seq 语言生成模型目录NLP教程什么是Encoder和Decoder翻译秀代码还能优化吗总结全部代码机器怎么理解句子一直是一个难题,以前有人尝试用句子中出现的词语频率来表达这个句子的含义(TF-IDF)。 也有人想把句子中的词语先向量化,然后再叠加句子中所有向量化的词语来表达一句话。 这些的确都是一种计算机表达句子含义的方式,但是不一定会非常准确。因为他们都只是一种对词语理解的简单加工方式,有的忽略了词语的表达顺序, 有的忽略了词语的组合模式。这往往原创 2021-02-05 11:37:41 · 1712 阅读 · 0 评论 -
NLP教程笔记:句向量
NLP教程笔记TF_IDF词向量句向量目录NLP教程笔记句向量怎么理解生成对话任务句向量使用深度学习的计算机在理解任何事物之前,都是将这件事物转换成一种数学的表达形式。在AI从业人员看来,AI技术,都是将这些以数字记录的数据,通过AI模型将其转化成一串数字。我们看到的图片就是原始的数据存储在计算机中的样子,中间的模型将图片当做输入,然后输出成右边的数字,我们称其为向量。这个向量,就是模型对于这张图片的理解。你可能会在想,我们不是在说人类的语言吗?这和图片有什么关系?当然是有关系的,机器学习原创 2021-02-05 08:14:24 · 639 阅读 · 0 评论 -
中文预训练模型泛化能力挑战赛
目录赛题描述及数据说明数据说明数据格式评测方案计算公式:macro f1sklearn 计算方式 (python):赛题分析多任务学习多任务学习动机模型结构硬共享模式软共享模式共享-私有模式loss优化代码实践Step 1:环境准备Step 2:数据读取1) 数据集合并2)标签编码3) 数据信息查看Step 3: 数据分析(EDA)1) 子句长度统计分析2)统计标签的基本分布信息Step 4: 预训练模型选择1) 模型选择2) 调优参数配置Step 5: 模型构建1) 切分数据集(Train,Val)进行模原创 2021-02-04 21:27:41 · 1296 阅读 · 0 评论 -
NLP教程笔记:词向量
词向量的几种典型应用:把这些对词语理解的向量通过特定方法组合起来,就可以有对某句话的理解了; 可以在向量空间中找寻同义词,因为同义词表达的意思相近,往往在空间中距离也非常近; 词语的距离换算。一、Continuous Bag-of-Word(CBOW)原理:挑一个要预测的词,来学习这个词前后文中词语和预测词的关系。# [Efficient Estimation of Word Representations in Vector Space](https://arxiv.org/pdf原创 2021-01-28 11:44:21 · 541 阅读 · 0 评论 -
NLP教程笔记:TF_IDF
一、直接实现import numpy as npfrom collections import Counterimport itertoolsfrom visual import show_tfidf # this refers to visual.py in my [repo](https://github.com/MorvanZhou/NLP-Tutorials/)docs = [ "it is a good day, I like to stay here", ".原创 2021-01-26 14:59:18 · 794 阅读 · 0 评论