自然语言处理
文章平均质量分 81
自然语言处理
西西先生666
这个作者很懒,什么都没留下…
展开
-
深度学习之BatchNorm和LayerNorm
BatchNorm和BatchNorm区别原创 2022-10-17 09:58:29 · 339 阅读 · 0 评论 -
自然语言处理之BERT模型
自然语言处理之BERT模型一、BERT模型原理1.1 MASKED LM(Masked lanhuage Model)1.2 Next Sentence Prediction一、BERT模型原理BERT模型(Bidirectional Encoder Representations from Transformers):双向transformer编码表达。在BERT中主要以两种预训练的方式建立语言模型:MASKED LM和Next Sentence Prediction。1.1 MASKED L原创 2022-05-26 10:40:32 · 1514 阅读 · 0 评论 -
自然语言处理之Transformer模型
自然语言处理之BERT模型一级目录二级目录三级目录一级目录二级目录三级目录原创 2022-05-24 16:32:25 · 779 阅读 · 0 评论 -
自然语言处理之LDA:文本主题模型之隐含狄利克雷分布(LDA)
自然语言处理之LDA:文本主题模型之隐含狄利克雷分布(LDA)一、朴素贝叶斯分析二、PLSA模型三、 基本函数知识3.1 词袋模型3.2 二项分布3.3 多项分布3.4 Gamma函数3.5 Beta分布3.6 共轭先验分布3.7 Dirichlet分布四、主题模型LDA(隐含狄利克雷分布)4.1 原理一、朴素贝叶斯分析朴素贝叶斯可以胜任多文本分类问题;无法解决预料中一词多义和多词一义的问题,它更像是语法分析而非语义分析;如果使用词向量作为文档的特征,一词多义和多词一义会造成计算文档间相似度的不准原创 2021-06-22 21:41:42 · 664 阅读 · 0 评论 -
自然语言处理之LSTM、GRU
自然语言处理之LSTM一级目录二级目录三级目录一级目录二级目录三级目录原创 2021-08-28 17:02:58 · 549 阅读 · 0 评论 -
自然语言处理之RNN
自然语言处理之RNN一、循环神经网络( Recurrent Neural Network, RNN)1.1 全连接神经网络弊端,引出RNN1.2 循环神经网络RNN1.2 循环神经网络RNN训练方法1.3 循环神经网络RNN的多种类型任务1.3.1 one-to-one1.3.2 one-to-n1.3.3 n-to-n1.3.4 n-to-one1.3. 5 n-to-m1.4 BiRNN:双向RNN1.5 DRNN:深层RNN一、循环神经网络( Recurrent Neural Network, RN原创 2021-08-28 09:39:56 · 1084 阅读 · 0 评论 -
自然语言处理:定义文本预处理类、TF-IDF类、主题模型类
自然语言处理:定义文本预处理类、TF-IDF类、主题模型类一、文本预处理类二、TF-IDF类三、主题模型类四、类应用一、文本预处理类import pandas as pdimport numpy as npimport functoolsfrom gensim import corpora, modelsfrom jieba import analyseimport jieba.posseg as possegimport jiebaimport gensimimport warning原创 2021-06-07 16:41:36 · 233 阅读 · 0 评论 -
机器学习之LSI:文本主题模型之潜在语义分析(LSI)
机器学习之LSI:文本主题模型之潜在语义分析(LSI)一、潜在语义分析(LSI)概述二、LSI简单示例概述三、LSI主题模型总结四、代码实现一、潜在语义分析(LSI)概述潜在语义索引(Latent Semantic Indexing,以下简称LSI),也可以称为Latent Semantic Analysis(LSA)。LSI是一种简单实用的主题模型。LSI是基于奇异值分解(SVD)的方法得到本文的主题。SVD分解:对于一个矩阵Am∗nA_{m*n}Am∗n,可以分解为三个矩阵:Am∗n原创 2021-06-04 16:51:21 · 3534 阅读 · 0 评论 -
机器学习之正则表达式
机器学习之正则表达式原创 2021-05-02 21:01:43 · 1856 阅读 · 0 评论 -
机器学习之word2vec
机器学习之word2vec1、词向量基础2、word2vec原理2.1 CBOW与Skip-Gram用于神经网络模型2.1.1 CBOW与Skip-Gram用于神经网络2.1.2 CBOW vs Skip-gram区别2.2 word2vec基础之霍夫曼树2.3 word2vec基础之Hierarchical Softmax的模型2.3.1 基于Hierarchical Softmax的模型梯度计算2.3.2 基于Hierarchical Softmax的CBOW模型2.3.3 基于Hierarchical原创 2021-05-20 16:53:18 · 451 阅读 · 0 评论 -
机器学习之NLP常见函数整理
机器学习之NLP常见函数整理一、nltk包函数1.1 词干提取1.2 词形还原一、nltk包函数1.1 词干提取当遇到两个或两个以上单词具有共同根源的情况。 例如,agreed, agreeing 和 agreeable这三个词具有相同的词根。 涉及任何这些词的搜索应该把它们当作是根词的同一个词。所以需要进行词干提取。在NLTK库中有一些方法来完成这个链接,并给出显示根词的输出。 以下程序使用Porter Stemming算法进行词干提取。from nltk.stem.porter import P原创 2021-05-20 19:36:09 · 464 阅读 · 0 评论