NLP自然语言处理
文章平均质量分 61
自然语言处理NLP相关学习笔记
Laura_Wangzx
生活或许可以平淡,但生命绝不能平庸❤️
展开
-
spacy中en_core_web_sm安装问题
spacy中en_core_web_sm安装问题原创 2022-06-07 10:58:15 · 535 阅读 · 1 评论 -
利用Dataset与Dataloader自定义数据集
自定义Dataset使用Dataloaderpytorch教程:https://pytorch.org/docs/1.7.1/data.htmlPytorch之Dataset与DataLoader打造你自己的数据集,源码阅读https://chenllliang.github.io/2020/02/04/dataloader/Map式数据集必须要重写__getitem__(self, index),len(self) 两个内建方法,用来表示从索引到样本的映射(Map).这样一个数据集d转载 2022-04-04 08:44:22 · 1097 阅读 · 0 评论 -
卷积神经网络CNN与深度卷积神经网络-学习笔记
0. 卷积神经网络基础0.1 二维卷积层(二维卷积层,常用于处理图像数据)0.1.1 二维互相关运算0.1.2 二维卷积层0.1.3 互相关运算与卷积运算0.1.4 特征图与感受野0.2 填充和步幅(卷积层的两个超参数,即填充和步幅,它们可以对给定形状的输入和卷积核改变输出形状。)0.2.1 填充0.2.2 步幅0.3 多输入通道和多输出通道0.3.1 多输入通道0.3.2 多输出通道0.3.3 1x1卷积层0.4 卷积层与全连接层的对比0.4.1 卷积层的简洁实现0.5 池化原创 2020-03-23 20:52:39 · 1796 阅读 · 0 评论 -
TNEWS今日头条中文新闻(短文本)分类
数据分析:数据分布情况:占比例多少文本 :一句话多长。截断处理。 平均50个字<=110词。(分完词的长度)多分类: (代码可复现)方法一:6个二分类器。一条句子分别跑6个模型,分最高,选哪个。(效果好)方法二:一个模型直接预测出属于哪类。决策树,SVM,TNEWS’ 今日头条中文新闻(短文本)分类 Short Text Classificaiton for News数据集来自今日头条的新闻版块,共提取了15个类别的新闻,包括旅游,教育,金融,军事等。数据量:训练集(53,360原创 2021-01-03 22:31:40 · 5533 阅读 · 1 评论 -
NLP情感分析
小Tips:写论文工具:latex或者word文献管理:nore express或者Endnote画图工具:PS/PPT/ProcessOn情感分析的重要性情感分析技术点学习路径推荐MemNet原创 2021-05-10 20:11:30 · 319 阅读 · 0 评论 -
NLP基础、发展历程与前进方向、学习路径
自然语言基础三大基础:词向量:词转换为向量。序列生成:生成一个序列。注意力机制:有很多信息,从中找出重要的。两个任务:文本分类任务机器翻译任务自然语言处理发展历程与前进方向1. 2003年NNLM模型基于前馈神经网络的语言模型。在它之前:传统方法都是通过统计的方法,数出每个词出现的次数。通过统计n-grams来学习语言模型。NNLM:通过深度学习的方式自动学习一个语言模型,是将词映射到向量。并且和n-grams模型的效果相当。2. 2013年Word2vec模型之前的原创 2021-04-06 15:37:54 · 265 阅读 · 0 评论 -
NLP项目实战总结
NLP项目实战小技巧及总结项目实战matplotlib中文文档:pandas中文文档:五折交叉验证StratifiedKFold:分词BERT解析及文本分类应用知乎看山杯夺冠记「2017 知乎 · 看山杯机器学习挑战赛」结束,谁获奖了?知乎还会做什么?好的代码项目实战matplotlib中文文档:https://matplotlib.org/stable/index.htmlpandas中文文档:https://www.pypandas.cn五折交叉验证StratifiedKFold:Stra原创 2021-03-19 15:22:12 · 914 阅读 · 1 评论 -
百度技术学院-智能对话训练师学习笔记
百度技术学院-智能对话训练师视频链接:https://bit.baidu.com/productsBuy?id=108百度技术学院-智能对话训练师学习笔记智能对话市场与就业前景智能对话系统概念整体介绍UNIT机器人功能介绍UNIT技能等相关功能介绍UNIT训练数据功能介绍智能对话市场与就业前景智能对话训练师的职责一:收集真实场景下的问法及相关数据并进行数据的清洗、分类和标注二:配置出可用的对话模型,并合理评估出对话效果三:能够持续优化模型、不断提升技能的对话理解效果智能对话训练师的能力要求一原创 2020-07-13 21:51:47 · 691 阅读 · 0 评论 -
TF-IDF在sklearn中TfidfVectorizer的使用
TF-IDF以下内容部分摘录于百度百科。什么是TF-IDF?TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。TF-IDF的原理:TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。T原创 2021-01-07 14:14:57 · 4158 阅读 · 0 评论 -
3天深入浅出NLP笔记(一)
这里写目录标题大纲1.为什么你一定要打比赛?存在的障碍及解除障碍方法中医药天池大数据竞赛——思路2. 零基础小白如何打比赛?3. 疫情期间网民情绪识别赛题背景——多模态(文本、图片、视频)分类任务4. BaseLine构建数据探索思路分析分析数据:数据清洗、标签分布探索、微博文本分析构建模型:模型训练总结大纲1.为什么你一定要打比赛?存在的障碍及解除障碍方法比赛:实战+串联知识中医药天池大数据竞赛——思路代码设计思路Baseline:网络结构:预训练模型(Bert)拆分数据集,记原创 2021-02-23 21:37:50 · 378 阅读 · 0 评论 -
3天深入浅出NLP笔记(二)迁移学习&模型融合专题
迁移学习&模型融合专题疫情期间网民情绪识别赛题背景——多模态(文本、图片、视频)分类任务迁移学习 transfer learning定义综述领域自适应Bert半监督DA问题模型融合作业(额外问题)疫情期间网民情绪识别赛题背景——多模态(文本、图片、视频)分类任务比赛地址:https://www.datafountain.cn/competitions/423/datasets迁移学习 transfer learning定义定义:通过减少源域到目标域的分布差异,进行知识迁移,从而实现数据标注原创 2021-02-24 12:13:22 · 862 阅读 · 0 评论 -
3天深入浅出NLP笔记(三)模型调参和数据增强专题
3天深入浅出NLP笔记(三)模型调参和数据增强专题模型调参模型选择:文本增强文本增强技术回译-UDA随机词替换非核心词替换基于上下文信息的文本增强基于语言生成模型的文本增强文本增强在工业界的应用回译技术Embedding技术伪标签总结模型调参自己动手实验 模型调参模型选择:机器学习模型调参部分:深度学习模型调参:预训练模型:通过大量文本自监督学习字向量。Bert上进行微调好的预训练模型:文本增强标注样本难,因此文本增强广泛使用。小样本数量少,预测的不好。文本增原创 2021-02-24 21:32:39 · 404 阅读 · 0 评论 -
3天深入浅出NLP笔记(四)比赛思路进阶专题
3天深入浅出NLP笔记(四)比赛思路进阶专题模型调参模型融合预训练模型文本输入的截断策略:五种预训练模型:fine-tune: 五种预训练模型结构:特征工程模型调参参数初始化方法:模型调参技巧:数据打乱可以增加随机性。BN用于图像;LN用于文本对超过阈值的梯度值进行规约。dropout对神经元的删除。防止过拟合adam优化器。分类常用。学习率 偏小激活函数其他超参数,loss优化方式,只是在一点有效全连接层模型融合交叉验证模型融合先试试Bert系列(5个模型)原创 2021-02-25 21:56:14 · 209 阅读 · 0 评论 -
3天深入浅出NLP笔记(五)比赛总结-竞赛干货全复盘
3天深入浅出NLP笔记(五)竞赛干货全复盘知识点总结其他比赛方案面试相关问题Stacking方案NLP入门知识点总结Baseline构建(BERT模型)模型调参数据增强迁移学习、指标优化模型融合Bert原理(输入、输出、多少层组成)模型组合调参技巧、指标优化数据增强、伪标签模型融合其他比赛方案面试相关问题bert4keras:包可利用。stacking方式融合Stacking方案多个模型做Stacking。五折:数据跑五次。手动加权:NLP入门原创 2021-02-26 12:29:12 · 218 阅读 · 0 评论 -
深度学习(四):情感倾向性分析
深度学习(四):情感倾向性分析NLP前置知识(情感分析)NLP任务粒度:字、词语、句子、篇章情感分析NLP原理介绍NLP数据处理-通用流程EmbeddingLSTMNLP前置知识(情感分析)NLP任务粒度:字、词语、句子、篇章情感分析文本分类问题1:文本为什么要表示成向量呢?问题2:如何学习到表征语义信息的向量?如何将文本表示成向量?问题1:文本为什么要表示成向量呢?问题2:如何学习到表征语义信息的向量?如何将文本表示成向量?NLP原理介绍NLP数据处理-通用流程原创 2021-03-03 21:02:05 · 2518 阅读 · 0 评论 -
深度学习(五):对对联,根据上联,对下联
深度学习(五):NLP文本生成任务——对对联,根据上联,对下联NLP文本生成任务Seq2seq&Attention机制数据处理流程LSTM——循环神经网络注意力机制(Attention)实战:对对联NLP文本生成任务文本生成的场景:看图说话、写摘要。。。Seq2seq&Attention机制Attention本质是权重,在翻译句子时候,汇集于前面单词不同的关注度。数据处理流程其中Lookup-Table中:Word2Vector、ElMO、Glove等来训练词向量。 预训原创 2021-03-09 09:02:02 · 1055 阅读 · 0 评论