nlp
文章平均质量分 65
程序汪赵可乐
自动驾驶从业者,擅长领域是视觉SLAM、图像感知、模型部署,喜欢分享,热爱并敬畏这个行业,正在寻找志同道合的朋友...
展开
-
自然语言处理(NLP)入门——预训练模型
ELMo和GPT认识ELMO模型本质: Embeddings from Language Models.解决的问题: 多义词的问题结构图结构:最下层是embedding层中间是双向的LSTM最上层是词向量表征 2L+1 L —> 层数ELMo的预训练过程第一个阶段: 预训练语言模型第二个阶段: 根据下游任务, 去动态调整word embedding的向量表示,然后将去融入到之前的向量中, 就完成了动态调整的过程每层词向量表示的意义第一层: 静态词向量原创 2022-03-31 17:30:00 · 1746 阅读 · 0 评论 -
自然语言处理(NLP)入门——Transformer精讲问答、Bert
1.1 认识BERT定义: 实质就是Transformer的encoder部分表现: 在阅读理解上会有更好的表现.BERT分为三个模块最底层: Embeddingtoken embedingSegment embeding 句子分段嵌入向量position embeding中间层: Transformer只是用了encoder部分最上层: 预微调模块句子对关系的判断单文本的主题分类QA问题模型 start end句子贴标签(NER命名实体识别任务)原创 2022-03-31 15:15:00 · 288 阅读 · 0 评论 -
自然语言处理(NLP)入门——Transformer详解(2)
编码器部分注意力机制: [重点复习]注意力: 快速聚焦, 进行事务的判别的过程注意力机制: 就是将注意力计算规则融入到网络中,然进行使用的过程, 就是注意力机制, 如果QKV都是相等的, 则是自注意力机制多头注意力机制:[重点复习]多头: 其实就是将最后一个维度[词嵌入维度]进行分割, , 每个维度进入注意力机制进行特征提取/语义提取的过程作用: 为了使咱们的语句或是词汇有更多元 化的表示/表达contiguous()函数的使用: 一般是在transpose..原创 2022-03-31 07:15:00 · 336 阅读 · 0 评论 -
自然语言处理(NLP)入门——Transformer详解(1)
Transformer的背景:2017年发表的的Transformer论文2018年出现优势:Transformer能够利用分布式GPU进行并行训练,提升模型训练效率.在分析预测更长的文本时, 捕捉间隔较长的语义关联效果更好. attention机制的使用.Transformer结构解析输入部分源语言的文本嵌入层 + 位置编码器目标语言的文本嵌入层 + 位置编码器编码器部分编码器是有N个编码器层组成编码器层是由两个子层连接结构构成第一个子层连.原创 2022-03-31 00:00:00 · 549 阅读 · 0 评论 -
自然语言处理(NLP)入门(4)——传统RNN模型
RNN经典模型定义: 循环神经网络结构: 输入层 —> 隐藏层—> 输出层时间步的概念: 单词在rnn中循环的过程, 一个样本中有多少个单词就循环多少次, 每次循环的过程可以看做是一个时间步, 上一个时间步是可以作为下一个时间步的输入, 进行信息提取.我 爱 北 京 天 安 门 字符级别我 爱 北京 天安门 词符级别RNN的作用领域: 在序列问题上可以很好的解决业务逻辑, 文本分类, 意图识别, 机器翻译等任务.RNN分类输入和输出原创 2022-03-30 12:30:00 · 782 阅读 · 0 评论 -
自然语言处理(NLP)入门(3)——文本预处理
**数据和特征决定了机器学习的上限,而模型和算法只是无线逼近这个上限。**正是因为数据处理的重要性,在NLP算法的工作中,大部分的时间是与数据打交道,文本预处理更是重中之重!文本预处理方法:文本处理的基本方法分词作用: 为了更好的进行语言语义的理解(why)工具: jieba 安装: pip install jiebjieba特性:多种分词模式精确模式(how)jieba.cut(content, cut_all=False)—> 生成器jieba.lc原创 2022-03-30 07:00:00 · 477 阅读 · 0 评论 -
自然语言处理(NLP)入门(2)——数据来源
项目中的数据来源基本分为3大种类:第一类: 公司内部数据部门提供.情况1: 数据平台有预处理, 提供的是"成品数据".情况2: 数据平台没有预处理, 只告诉开发人员"数据路径".情况3: 原始数据就没有, 需要开发人员沟通不同部分, 获取"业务数据".第二类: 甲方提需求, 并提供数据.情况1: 甲方有预处理数据, 提供的基本是"半成品数据".情况2: 甲方只负责"埋点", 后续数据需要开发人员处理.情况3: 甲方数据"匮乏", 甚至数据"缺失".第三类: 需求画大饼阶段, 没有数据,原创 2022-03-29 20:41:36 · 291 阅读 · 0 评论 -
自然语言处理(NLP)入门(1)——前言
什么是NLP? 自然语言处理(Natural Language Processing, 简称NLP), 是计算机科学与语言学中关注于计算机与人类语言间转换的领域, 简单来说就是让计算机识别并理解我们人类的语言,帮助我们完成一些类似翻译、问答等任务,NLP解决文本任务但并不限于文本,语音识别、看图说话等领域也属于NLP任务。 计算机科学之父图灵在1950年发表的论文中提出“Can machines thinking?”这一划时代的问题,从此促成了人类语言与计算机科学的交融。在1957~1970年间原创 2022-03-29 20:11:10 · 1320 阅读 · 0 评论 -
机器学习算法总结
机器学习两个核心任务:任务一:如何优化训练数据 —> 主要用于解决欠拟合问题任务二:如何提升泛化性能 —> 主要用于解决过拟合问题KNN定义:给定一个训练集,对新输入的未知样本,通过计算与每个训练样本的距离,找到与该实例最邻近的K个实例,这K个实例大多属于某个类,该样本就属于某个类应用场景:分类/回归问题算法流程:计算已知类别数据集中的点与当前点之间的距离按照距离值进行排序选取最小的k个距离,并统计这k个点所在类别出现的概率返回前k个点出现频率最高的类别作为原创 2022-03-12 17:25:41 · 1905 阅读 · 0 评论 -
加载预训练模型遇到transformers的问题
问题1: urllib.error.URLError: urlopen error [SSL: CERTIFICATE_VERIFY_FAILED]这是由于ssl验证的问题,在.py 文件的开头导入ssl包,创建默认验证:import sslssl._create_default_https_context = ssl._create_unverified_context问题2: ImportError: cannot import name ‘AutoModelWithHeads’ from ‘原创 2022-03-02 20:18:51 · 14526 阅读 · 0 评论