自然语言处理实践(新闻文本分类)——task05

基于深度学习的文本分类

Word2vec + TextCNN

Word2vec:
One-Hot Representation导致得到的特征是离散稀疏的。

Dristributed representation可以解决One hot representation的问题,它的思路是通过训练,将每个词都映射到一个较短的词向量上来。所有的这些词向量就构成了向量空间,进而可以用普通的统计学的方法来研究词与词之间的关系。

word2vec模型其实就是简单化的神经网络。

在这里插入图片描述
输入是One-Hot Vector,Hidden Layer没有激活函数,也就是线性的单元。Output Layer维度跟Input Layer的维度一样,用的是Softmax回归。当这个模型训练好以后,我们并不会用这个训练好的模型处理新的任务,我们真正需要的是这个模型通过训练数据所学得的参数,例如隐层的权重矩阵。

模型的输入和输出一般分为CBOW(Continuous Bag-of-Words 与Skip-Gram两种模型。CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量,而输出就是这特定的一个词的词向量。 Skip-Gram模型和CBOW的思路是反着来的,即输入是特定的一个词的词向量,而输出是特定词对应的上下文词向量。CBOW对小型数据库比较合适,而Skip-Gram在大型语料中表现更好。

TextCNN

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Pytorch是一个流行的深度学习框架,它在自然语言处理领域有着广泛的应用。在使用Pytorch进行自然语言处理时,可以利用Pytorch自带的Embedding层来对单词进行向量化编码,将词转换成词向量。需要注意的是,Embedding层的输入是一个tensor long类型,表示读取第几个tensor,等于token的数量。例如,可以使用nn.Embedding(2,5)来创建一个Embedding层,其中2表示查询表的大小,5表示词向量的维度。然后可以使用该Embedding层将一个单词转换成一个词向量,如embeds(word_to_ix["one"])。通过这种方式,可以将文本数据转化为可以输入到深度学习模型中进行训练的形式。在自然语言处理中,还需要使用其他必要的Python工具库,如os、numpy、pandas、matplotlib.pyplot、glob、random、time、torch等,来进行数据预处理、模型构建和结果可视化等操作。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [自然语言处理实战——Pytorch实现基于LSTM的情感分析(LMDB)——详细](https://blog.csdn.net/m0_53328738/article/details/128367345)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [Pytorch系列:(六)自然语言处理NLP](https://blog.csdn.net/weixin_43973207/article/details/117135671)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值