NLP
文章平均质量分 73
蛋王派
这个作者很懒,什么都没留下…
展开
-
LSTM分类模型
LSTM分类模型本文主要固定一个文本分类的流程。分为三个部分:数据处理。对分类文本数据集做简单的预处理。模型数据准备。处理上一步的结果,得到模型的输入样本。模型搭建和训练流程。程序架构如下:主要包括一个原始的分类文件(头条新闻)。一个预处理脚本prepare_data.py一个数据处理脚本data_loader.py一个训练过程脚本trainer.py一个模型文件lstm_model.py分类流程数据预处理将原始的文本进行预处理,原始文件形式如下:处理后文件如下,形式为原创 2022-03-14 23:08:30 · 11651 阅读 · 1 评论 -
Torchtext 使用方法
Torchtext 使用方法1. Torchtext 介绍众所周知,Pytorch是现今非常流形的深度学习框架。而Torchtext是一个非官方的、为Pytorch提供文本数据处理的库。在自然语言处理尤其是RNN、LSTM等模型的应用方面具有重要意义。虽然torchtext主要是为Pytorch提供服务的,但是也可以用于其他框架比如Tensorflow、Keras等。 本文主要内容有:获取文本数据使用torchtext建立语料库使用torchtext建立索引库(word2index; index原创 2020-07-07 17:21:02 · 2965 阅读 · 0 评论 -
gensim生成词向量并获取词向量矩阵
gensim生成词向量并获取词向量矩阵word2vec是目前比较通用的训练词向量的工具,使用Gensim模块,可以使词向量的训练变的简单,但是调用gensim.models的word2vec模块使用skip-gram或CBOW完成词向量训练之后,如何获取词向量中的词汇表以及对应的词向量矩阵呢。本文以一个小例子进行演示。1. 导入相关包主要用到了jieba和gensim包,可以使用命令行pip3 install gensim或下载gensim包的方式,具体不述。import jiebafrom ge原创 2020-07-07 17:16:55 · 8583 阅读 · 10 评论 -
文本可视化(词云图)
文本可视化(词云图)(一)文本可视化种类(1)基于文本内容的可视化基于文本内容的可视化研究包括基于词频的可视化和基于词汇分布的可视化,常用的有词云、分布图和 Document Cards 等。(2)基于文本关系的可视化基于文本关系的可视化研究文本内外关系,帮助人们理解文本内容和发现规律。常用的可视化形式有树状图、节点连接的网络图、力导向图、叠式图和 Word Tree 等。(3)基于多层面信息的可视化基于多层面信息的可视化主要研究如何结合信息的多个方面帮助用户从更深层次理解文本数据,发现其内在原创 2020-07-07 17:15:05 · 8023 阅读 · 1 评论 -
文本的向量表示
文本的向量表示1. 为什么需要文本的表示?文字是人类认知过程中产生的高层认知抽象实体,我们需要将其转换为数字向量或矩阵作为机器学习算法模型以及神经网络模型的标准输入输出。2. 词袋模型(Bag-of-words)Bag-of-words模型是信息检索领域常用的文档表示方法。在文本特征生成过程中,对于一个文档,词袋模型忽略其单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的,不依赖于其它单词是否出现。也就是说,文档中任意一个位置出现的任何单词,都不受该文档语原创 2020-07-07 17:14:29 · 4347 阅读 · 1 评论 -
Pytorch搭建深度模型
Pytorch搭建模型流程1. 引言2. Pytorch搭建深度框架流程2.1 导入相关包2.2 设置超参数2.3 导入数据集2.4 定义网络模型2.5 实例化网络并定义优化器2.6 定义训练网络train2.7 定义测试网络test2.8 开始训练并测试1. 引言Pytorch与Tensorflow是现今比较流行的两种深度学习计算框架。相较于Tensorflow,Pytorch具有更高的灵活性(动态),代码更简洁易懂。(当然,Tensorflow的新版本也已经引入了动态图)。Pytorch主要用于:原创 2020-07-07 16:34:22 · 320 阅读 · 0 评论