![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 58
_愚者
这个作者很懒,什么都没留下…
展开
-
简单词性标注实战
文章目录词性标注实战讲解代码实现读取词性标注数据集构建上述三个特征数组进行词性标注查看一下路径对应的词性,以及错误词性的dp值学自NLPCamp词性标注实战讲解对于一段文本我们要知道其中每个词的词性。形式如下:# Z为词性总和:{z1,z2,...,zn},S为句子(词总和):{w1,w2,...,wn}# S中每个词的词性肯能有多种,而组合起来的Z就更多了所以对于要求的P(Z|S),S是一个小概率,Z是大概率。所以其是求不出来的,使用贝叶斯公式求。我们要求的是:从S的所有词的词性组原创 2021-11-27 16:10:57 · 784 阅读 · 1 评论 -
整个NLP重新学习(二)
文章目录NLP训练营学习记录(二)语言模型Noisy Channel ModelLanguage ModelChain Rule(链式法则)马尔科夫假设(Markov Assumption)Language ModelUnigramBigramN-gram构造语言模型平滑化 SmoothingAdd-one SmoothingAdd-K SmoothingInterpolation(插值法)Good-Turning Smoothing评估语言模型语言模型实现1 将自定义词库添加到jieba词库中2 加载停用原创 2021-11-03 22:24:50 · 536 阅读 · 0 评论 -
NLP训练营学习记录(一)
文章目录NLP训练营学习记录(一)理解性小案例:机器翻译概率语言模型优化自然语言处理的四个维度算法复杂度归并排序以及Master Theorem(主定理分析)P、NP hard、NP complete问题斐波那契数的计算(介绍递归算法的时间复杂度)递归实现循环实现(将递归问题转化为DP问题)基于检索的问答系统的搭建(做NLP的流程介绍)问答系统介绍文本处理切词前向最大匹配(forward max matching)考虑语义的分词算法拼写纠错遍历词表选择候选词法生成候选词法去停用词NLTK停用词库停用词过滤词原创 2021-10-25 20:41:53 · 636 阅读 · 0 评论 -
Bert学习笔记
文章目录BERT学习笔记语言表征模型迁移学习Feature-Based ApproachFine-Tuning ApproachBERTPre-trainingMask LM(创新)Word Embedding双向TransformerNSP(创新)Fine-tuning比较BERT、ELMo、Word2VecWord2VecELMoBERTBERT学习笔记论文题目:BERT:Pre-training of Deep Bidirectional Transformers for Language Und原创 2021-03-24 15:31:12 · 452 阅读 · 0 评论 -
对STCKA实现的理解
原创 2021-03-17 18:43:39 · 183 阅读 · 0 评论 -
TorchText-DAY1
TorchText-DAY1TorchText是一种处理文本的工具,它是Pytorch的一个子项目。官方文档:https://pytorch.org/text/stable/data.html它有以下组件:torchtext.data.Field:该类用来定义字段的一些处理方法(字段包含文本字段、标签字段)torchtext.data.Datasets:数据集类。根据【数据文件的路径】、【Field】生成数据集。使用__ getitem __方法得到Example实例。torchte原创 2021-03-01 15:09:43 · 276 阅读 · 2 评论 -
特征提取初识
文章目录特征提取初识基与传统算法的分词算法最大正相匹配最大逆向匹配最大双向最大匹配分词模型基于传统算法及统计学模型jieba模型注意补充jieba的分词算法jieba的使用简介词加权算法TF-IDF算法(term frequency–inverse document frequency)TF-IDF算法的数学公式使用python实现TF-IDF算法语言模型词的表达词嵌入(基于神经网络的分布表达)word2vectorCBOW(连续词袋模型)Skip-gramGensim(训练word2vec语言模型、得到此原创 2021-01-24 21:11:17 · 1063 阅读 · 0 评论 -
Word2Vec
原创 2021-02-18 11:14:10 · 78 阅读 · 0 评论 -
GRU(门控循环单元)
原创 2021-02-17 19:00:47 · 352 阅读 · 0 评论 -
注意力机制
注意力机制其实就是在Encoding。什么是Encoding?:Encoding就是在编码,将一个东西A经过某种规则B变成另一种东西C,C是A的另一种表达(C与A指的是同一个东西只不过表现形式不同罢了)。这样从A到C的过程B就是Encoding的过程!Encoding的谁?Encoding的words,使用SelfAttention机制将words encoding成sentence representation。(实现机制是:将每个query对words的encode vector(...原创 2021-02-17 18:53:35 · 123 阅读 · 0 评论 -
LSTM(长短期记忆)
原创 2021-02-17 18:52:16 · 93 阅读 · 0 评论 -
RNN反向传播
原创 2021-02-17 18:50:47 · 216 阅读 · 0 评论