从零开始学自然语言处理_Yunlord的博客-CSDN博客

从零开始学自然语言处理

关注

文章平均质量分 92

由浅入深，以相关知识点串联，结合实战代码，从入门到精通掌握自然语言处理。

关注数：文章数：16 文章阅读量：36050 文章收藏量：442

作者: Yunlord

CSDN博客之星人工智能领域第三名，多年人工智能学习工作经验，一位兴趣稀奇古怪的【人工智能领域博主】！擅长图像识别、自然语言处理等多个人工智能领域，同时精通python，并且在不断拓展自身领域进行学习，致力于有趣好玩的技术推广和应用！！！如果有对新奇技术感兴趣的朋友们，欢迎持续关注Yunlord

展开

从零开始学习飞桨paddle(一)anaconda安装paddle环境

新接触百度的paddle框架，接下来将进行paddle系列教程，首先从安装环境开始吧万丈高楼平地起，进入paddle学习的第一步就完成了，接下来让我们用paddle实现自己的项目吧！

原创 2022-10-13 11:55:18 · 2975 阅读 · 1 评论
自然语言处理系列（一）入门概述

让小白也能轻松入门自然语言处理成为领域大神的专栏。该专栏介绍包括分词、词性分析、语义理解、命名实体识别、依存文法分析和句法分析等核心技术，以及智能问答系统、文本生成、机器翻译、情感分析和文本主题分类等应用场景。不仅有理论基础更有有多个实战案例以及代码详解。.........

原创 2022-07-04 09:00:00 · 2880 阅读 · 53 评论
一文读懂文本分类技术路线

分类定义在nlp中，文本分类是一个非常常见的任务，它将一个文本归结于特定的标签。目标：基于训练数据，训练分类模型使用训练好的模型，预测新数据类型典型应用场景垃圾邮件识别情感分析意图识别技术演化：规则机器学习：lr，svm，集成学习传统深度学习：fastrnn、textcnn、bilistm前沿：transformer、bert任务拓展序列标注任务句子对分类任务多标签任务集成模型：产生一组个体学习器，再通过某种策略组合起来

原创 2022-03-14 09:01:47 · 1259 阅读 · 40 评论
到底如何理解文本？一文读懂命名实体识别（实体消歧和实体统一）

第二十六章命名实体识别和实体消歧1 命名实体识别概论PART1 什么是命名实体识别PART2 命名识别识别的应用PART3 简历中抽取关键信息2 命名实体识别不同方法PART1 实体识别方法基于规则的方法基于majarity voting基于非时序模型分类基于时序模型分类总体来讲，前两种方法只是作为基准，一般不会作为生产环境下的方法，最常用的方法莫过于基于CRF的识别。基于规则的实体识别方法虽然简单，实际上也比较实用，特别是对于一些垂直领域的应用，或者数

原创 2021-09-02 09:29:20 · 7664 阅读 · 81 评论
神经网络到底在关注哪里？注意力机制与Transformer

注意力机制与Transformer1 注意力机制介绍PART1 浅谈注意力注意力(attention)是人类学习中必不可少的要素，比如我们去阅读一个文章，或者试着去理解一本书中作者想表达的意思，我们通常在阅读过程中会把注意力放在比较重要的环节上，而不是去把每个细节都会一一记住。人的记忆是有限的，抓重点的学习习惯往往会得到事半功倍的效果。那既然注意力这么重要，我们有没有办法把它用在AI应用中呢? 这就是注意力机制(attention mechanism)! 在过去几年取得了飞速的发展，而且已

原创 2021-08-16 14:10:11 · 4859 阅读 · 95 评论
使用ELMo技术让词向量动起来

1 词向量的回顾PART1 词向量介绍关于词向量和独热编码表示,下面哪个选项是错误的?A. 独热编码是一种稀疏的表示B. 词向量可以表示单词的语义,但独热编码不能C. 利用SkipGram学出来的词向量可以表示同一个单词在不同语境下的含义D. 在词向量中,我们可以用较低的维度来表示一个单词SkipGram学出来的词向量跟单词是一一对应的,但是一个单词在不同上下文中可以表示不同的含义。词向量在某种意义上可以表示一个单词的含义，所以当我们把词向量在二维或者三维空间里可视化时，就可

原创 2021-08-14 15:05:31 · 1158 阅读 · 1 评论
LSTM和GRU如何选择？RNN模型超详细介绍

1 RNN模型的必要性PART1 时间序列数据不同的数据类型需要采取不同的方法，比如对于时间序列数据(Time Series Data)，我们需要捕获动态的变化，需要使用能够做到这一点的模型。当然，对于时间序列数据也可以采用像SVM等静态的模型，比如先做特征抽取，同时确保有些特征是关于数据动态变化的特征，但即便这样，并不是最理想的方法。PART2 数据类型PART3 RNN的应用...

原创 2021-07-31 19:59:50 · 3046 阅读 · 6 评论
从零开始学NLP（九）无向图模型与标记偏置

前言上一节介绍完了隐马尔科夫模型，其存在一些缺点，所以我们要引进条件随机场CRF。本章将会介绍无向图模型以及如何从隐马尔科夫模型到条件随机场CRF。下一章将会详细讲解条件随机场CRF。一、有向图与无向图模型1.生成模型与判别模型生成模型和判别模型是两种不同类型的模型，在构造时采用了不同的方法来训练。顾名思义，生成模型可以用来生成数据，判别模型只能用于判别的任务。比如想让模型生成文本、或者创作歌曲、那无疑要使用生成模型。相反，如果我们的任务仅仅是判别，那判别模型其实就足够了。那到底这两...

原创 2021-07-02 14:31:26 · 605 阅读 · 4 评论
从零开始学NLP（一）朴素贝叶斯

朴素贝叶斯一、理解朴素贝叶斯二、朴素贝叶斯的训练三、朴素贝叶斯的优化一、理解朴素贝叶斯朴素贝叶斯模型是文本领域永恒的经典，广泛应用在各类文本分析的任务上。通常来讲，只要遇到了文本分类问题，第一个需要想到的方法就是朴素贝叶斯，它在文本分类任务上是一个非常靠谱的基准(baseline)。比如对于垃圾邮件的分类，朴素贝叶斯是一个极其有效且简单的模型。不要小看一个简单的模型。实际上，我们真正需要的是既简单同时又有效的模型，因为最终的目的是用最小成本来解决问题。一个简单的模型既有利于短时间内训练，也有助

原创 2021-05-25 15:55:24 · 851 阅读 · 10 评论
从零开始学NLP（六）词向量技术

前言上一章已经介绍完自然语言处理任务的第一个流程——文本处理，接下来就是如何用计算机明白的语言向量表示文本了，里面包括如何更好的表示单词和句子。一、文本表示基础对于自然语言处理各类应用，最基础的任务就是文本表示。因为我们都知道一个文本是不能直接作为模型的输入的，所以我们必须要先把文本转换成向量的形式之后，再导入到模型中训练。所谓文本的表示，其实就是研究如何把文本表示成向量或者矩阵的形式。1.单词的表示如何表示一个单词，最直观的理解就是用One-hot编码来实现。One-hot表示很容易

原创 2021-06-20 21:44:12 · 1168 阅读 · 0 评论
从零开始学NLP（八）隐马尔科夫模型（超详细）

1 HMM基础PART1: 时间序列数据股票价格，气温、文本PART2: HMM基础HMM作为经典的序列模型，广泛应用在各类AI场景中。其中，HMM的最成名之作可以认为是语音识别领域。在深度学习流行之前，绝大部分语音识别系统都基于HMM模型，也算是经典中的经典了。另外，HMM在文本领域也有着很多的应用如中文分词。除此之外，理解HMM对于后续学习RNN模型来说有着比较大的意义，因为这两者很类似，你可以简单地认为HMM是传统的序列模型，RNN为基于深度学习的序列模型。学习HMM并不简单，其中

原创 2021-06-30 17:46:39 · 1966 阅读 · 34 评论
从零开始学NLP（七）语言模型

一、语言模型基础1.什么是语言模型语言模型用来判断一句话从语法上是否通顺总结起来的话，语言模型最主要的作用是保证文本的语法结构，得到通顺的语句。语言模型是一种概率统计的方法，已经训练好的语言模型可以对任何一个文本给出概率，概率越高说明语法上越通顺。通过比较两句话在同一个语言模型上的概率，我们就可以得出哪一句话更通顺一些。2.计算语言模型的概率语言模型的目标计算一句话或者一系列单词的概率链式法则：述的条件概率是从语料库中统计出来的,而且语言模型本身是无监督学习,不需要数据标签3

原创 2021-06-23 15:35:52 · 3606 阅读 · 2 评论
从零开始学NLP（二）决策树

决策树一、理解决策树二、决策树的训练三、决策树中的不确定性四、决策树的过拟合五、决策树最优模型的构建步骤一、理解决策树决策树在机器学习领域的地位很高，而且又是几个经典集成模型(随机森林，提升树)的基础。为了更好地理解这些集成模型，需要先理解决策树。那什么叫决策树呢?其实我们每天都在使用决策树，这是我们做日常决策的工具。举个例子，“明天如果下雨我就不出门了。” 在这里我们用了一个决策条件:是否下雨，然后基于这个条件会有不同的结果:出门和不出门。这就是一个经典的决策树。再举个稍微复杂点的，张

原创 2021-05-26 11:24:38 · 695 阅读 · 0 评论
从零开始学NLP（四）文本处理

一、文本分析流程与分词1.文本分词流程就像其他的领域有自己的经典流程一样，一个文本分析的项目也有属于自己的流程。虽然每一个NLP项目有所不同，但至于流程来说没有太多本质的区别。这里会涉及到如分词、停用词过滤、文本向量的转化等步骤。...

原创 2021-06-01 17:34:02 · 1926 阅读 · 0 评论
从零开始学NLP（五）文本表示

前言上一章已经介绍完自然语言处理任务的第一个流程——文本处理，接下来就是如何用计算机明白的语言向量表示文本了，里面包括如何更好的表示单词和句子。

原创 2021-06-02 17:49:06 · 473 阅读 · 1 评论
从零开始学NLP（三）随机森林

随机森林一、随机森林的理解二、随机森林与方差分析三、随机森林的训练四、随机森林的过拟合五、随机森林的实际案例代码分析一、随机森林的理解对于几乎所有的分类问题(图像识别除外，因为对于图像识别问题，目前深度学习是标配)，集成模型很多时候是我们的首选。比如构建一个评分卡系统，业界的标配是GBDT或者XGBoost等集成模型，主要因为它的效果确实好，而且稳定。还有一点是这些模型的可解释性也很好，不像深度学习模型就像个黑盒子。可解释性对于工业界应用来说尤其重要。比如一个模型出错了，我们希望第一时间能够找

原创 2021-05-26 18:42:47 · 938 阅读 · 2 评论

从零开始学自然语言处理

作者: Yunlord

从零开始学习飞桨paddle(一)anaconda安装paddle环境

自然语言处理系列（一）入门概述

一文读懂文本分类技术路线

到底如何理解文本？一文读懂命名实体识别（实体消歧和实体统一）

神经网络到底在关注哪里？注意力机制与Transformer

使用ELMo技术让词向量动起来

LSTM和GRU如何选择？RNN模型超详细介绍

从零开始学NLP（九） 无向图模型与标记偏置

从零开始学NLP（一）朴素贝叶斯

从零开始学NLP（六）词向量技术

从零开始学NLP（八） 隐马尔科夫模型（超详细）

从零开始学NLP（七）语言模型

从零开始学NLP（二）决策树

从零开始学NLP（四）文本处理

从零开始学NLP（五）文本表示

从零开始学NLP（三）随机森林

从零开始学NLP（九）无向图模型与标记偏置

从零开始学NLP（八）隐马尔科夫模型（超详细）