自然语言处理
文章平均质量分 80
lankuohsing
自动化研究生
展开
-
transformer原理及代码实践
文章目录1. transformer的宏观结构解析2. 数据的流动2.1. Encoder部分2.2. Decoder部分3. 代码实现(待补充)参考链接和文献:https://jalammar.github.io/illustrated-transformer/https://blog.csdn.net/qq_28168421/article/details/1203403601. transformer的宏观结构解析transformer的一种典型的seq2seq结构,常用于序列到序列的应用.原创 2022-03-12 12:36:47 · 2563 阅读 · 1 评论 -
pytorch文本任务pipeline
文章目录1. 读取文本数据制作成pytorch专用数据集2. 对句子进行分词得到词库3. 构建DataLoadarhttps://pytorch.org/tutorials/beginner/text_sentiment_ngrams_tutorial.htmlhttps://github.com/lankuohsing/pytorch-study/tree/main/utils/text_pipline1. 读取文本数据制作成pytorch专用数据集以读取CSV数据为例,里面每行的数据格式为:l.原创 2022-03-02 22:53:59 · 1008 阅读 · 0 评论 -
中文分词算法及python代码实现(持续更新中)
文章目录1. 机械分词算法1.1. 正向最大匹配算法参考链接:https://blog.csdn.net/lcwdzl/article/details/78493637代码源码地址:https://github.com/lankuohsing/Study_NLP1. 机械分词算法1.1. 正向最大匹配算法# In[]custom_dict = set(["机械","分词","方法","机械分词方法", "又","叫","基于","字符串","匹配", .原创 2021-12-05 23:13:35 · 3143 阅读 · 0 评论 -
An Introduction to Text Representation
文章目录1. Definition of Text Classification Task and Its Application Scenarios2. Text Representation2.1. Word Representation2.1.1. Discrete Word Representation2.1.1.1. One-hot Encoding2.1.1.2. Frequency Encoding1. Definition of Text Classification Task and .原创 2020-12-13 23:39:11 · 257 阅读 · 0 评论 -
nlp入门之文本的特征表示方法(未完待续)
nlp入门之文本表示文章目录nlp入门之文本表示1 one-hot编码2 词袋模型(Bag of Words)3 n-gram模型4 TF-IDFhttps://zhuanlan.zhihu.com/p/42310942https://www.cnblogs.com/Luv-GEM/p/10543612.html文本表示是指将文字表示成计算机能够运算和处理的数字或向量的方法。文本表示方法...原创 2020-02-20 00:47:00 · 1895 阅读 · 0 评论 -
自然语言处理任务之文本分类入门详解(未完待续)
文章目录0. 文本分类简介1. 数据集介绍2. 模型选择参考链接:https://developers.google.com/machine-learning/guides/text-classification0. 文本分类简介文本分类在很多软件产品中都占据重要位置,很多智能应用都用到了文本分类模型。有的是将文本分类的结果作为输入以便进行后续其他任务,例如对话系统中的意图识别;有的是直接将文本分类结果最为任务的输出,例如垃圾邮件过滤、评论情感分类等等。无论何种场景,文本分类的准确程度都是一个很关键.原创 2020-10-21 00:17:57 · 407 阅读 · 0 评论 -
Sequence to sequence入门详解:从RNN, LSTM到Encoder-Decoder, Attention, transformer
文章目录1. 前馈神经网络的缺点2. 循环神经网络RNN2.1. RNN的基本结构与数学定义2.2. 输入输出长度的讨论2.2.1. nx=ny=nn_x=n_y=nnx=ny=n2.2.2. nx=n,ny=1n_x=n,n_y=1nx=n,ny=12.2.3. nx=1,ny=nn_x=1,n_y=nnx=1,ny=n2.2.4. nx=n,ny=mn_x=n,n_y=mnx=n,ny=m,Encoder-Decoder模型3. RNN的复杂变种3.1. GRU(Gated Recur.原创 2020-09-15 22:50:33 · 1916 阅读 · 1 评论 -
NLP基础之词向量(Word2Vector)
NLP基础之词向量(Word2Vector)文章目录NLP基础之词向量(Word2Vector)0. 前言1. one-hot向量2. SVD分解3. Word2Vec3.1. 语言模型——n-gram3.2. Continuous Bag of Words Model(CBOW)0. 前言与图像或相比,语言是一种经过人类智力处理后的、更为抽象的数据对象,因此nlp相比cv相比有许多独特之处...原创 2019-10-28 23:02:14 · 1871 阅读 · 1 评论 -
nlp基础之语言模型
nlp入门基础之语言模型文章目录nlp入门基础之语言模型1. 简介2. n元语法1. 简介一段自然语言文本可以看做是一个离散时间序列s=ω1,ω2,⋯ ,ωTs=\omega_1,\omega_2,\cdots,\omega_Ts=ω1,ω2,⋯,ωT,而一个语言模型的作用是构建这个时间序列的概率分布P(s)P(s)P(s)。概率计算公式可以表示为:KaTeX parse erro...原创 2020-02-20 00:52:22 · 1254 阅读 · 0 评论