NLP
文章平均质量分 77
常用的NLP模型,包含代码解读与实战部分
笼中小夜莺
春招已上岸,梦想是环游世界。
展开
-
学习python的jieba库,一篇文章就够了
github地址:https://github.com/fxsjy/jieba/介绍中文分词千千万,人生苦短,我用“结巴”。jieba分词库号称是最好用的中文分词库,具有以下特点:支持四种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。paddle模式,利用PaddlePaddle深度学习框架,训练序列标注(双向GRU原创 2021-04-07 19:20:41 · 3472 阅读 · 0 评论 -
NLP学习路线
第一部分:机器学习基础篇第一章:自然语言处理概述什么是自然语言处理自然语言处理的现状与前景自然语言处理应用自然语言处理经典任务职业发展第二章:数据结构与算法基础时间复杂度、空间复杂度动态规划贪心算法各种排序算法第三章:分类与逻辑回归逻辑回归介绍最大似然估计优化与梯度下降法随机梯度下降法第四章:模型泛化与调参理解过拟合防止过拟合L1与L2正则交叉验证正则与MAP估计第二部分:文原创 2021-04-03 17:17:08 · 470 阅读 · 0 评论 -
[一起学BERT](二):BERT快速使用
基于pytorch1.4BERT模型本质是一种词嵌入模型,也是句子嵌入模型,输入的最大长度是512BERT模型把离散的单词变成了空间中连续的向量,即把一个单词变成向量Bert词向量模型的好处:对比word2vec,包含了语境(context)信息对比ELMo,速度快,并行程度高对比GPT模型,包含双向(bidirectional)语境信息在各类NLP任务上效果出众,例如文本分类、问答、词性标注、实体识别等等有预训练模型,只需要微调即可#!/usr/bin/env python# .原创 2021-03-23 03:27:48 · 792 阅读 · 0 评论 -
[一起学BERT](一):BERT模型的原理基础
Self-Attention机制理论①首先将x1、x2两个词进行编码得到向量②编码后的向量乘以对应的权重矩阵,得到每个词的三个特征矩阵Q、K、V③计算第一个词的时候通过q1*k1、q1*k2、q1*k3…q1*kn得到当前次对于每个词的分值。因为两个词距离越近关系越大,点乘的结果也就越大④最终的value计算softmax计算流程分值->e^x->归一化归一化之后再乘以V矩阵,然后再相加:为什么要除以根号d呢?如果不除以结果意思就是点乘结果越大就表示影响程度越大,明显是原创 2021-03-23 02:11:43 · 1749 阅读 · 2 评论 -
自然语言处理(一):自然语言处理与文本分类简介
自然语言处理发展历程从规则驱动到数据驱动的一个过程1990年以前,基于规则的方法基于规则的方法1990-2019,基于统计学的方法离散表示线性模型2012——,基于深度学习的方法神经网络分布式表示非线性模型自然语言处理的主要研究方向文本分类概述在NLP(自然语言处理)的很多子任务中,有绝大部分场景可以归结为文本分类,比如:情感分析领域识别意图识别文本分类的定义在给定的分类体系中,将文本分到指定的某个或某几个类别中,分类对象分为短文本(句子/标题原创 2020-12-17 17:44:33 · 2007 阅读 · 0 评论 -
pyltp学习笔记——中文语言处理工具
前言NLTK是使用最广泛的自然语言处理工具集,我最开始的时候也是想用它的,但是后来发现中文效果并不好,你如果翻译成了英文,文章意思根本就不一样了。推荐使用哈工大的LTP自然语言处理平台http://www.ltp-cloud.com/,我们使用pyltp包进行操作安装包pip install pyltp不成功的话直接下载whl文件,使用whl文件安装,不过这是64位的3.6使用版本,为了挣点积分,我放在了CSDN上,下载链接如下https://wwx.lanzoux.com/i7QnTigy0原创 2020-11-17 01:10:09 · 396 阅读 · 0 评论 -
关于文本分类(情感分析)的中文数据集汇总
转载地址:https://blog.csdn.net/alip39/article/details/95891321转载 2020-11-04 02:56:42 · 3237 阅读 · 0 评论 -
自然语言处理(1):Transformer模型实现原理详解
划时代的产物在2018年,谷歌推出了BERT模型之后,该模型在11项NLP任务中夺得STOA结果,引爆了整个NLP界。而BERT取得成功的一个关键因素是Transformer的强大作用。谷歌的Transformer模型最早是用于机器翻译任务,当时达到了STOA效果。Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的深度,充分发掘DNN模型的特性,提升模型准确率。在本文中,我们将研究Transforme原创 2020-10-20 21:23:41 · 4056 阅读 · 0 评论