利用word2vec和神经网络构造文章地域分类器（一）

最新推荐文章于 2024-06-06 16:40:29 发布

jilezhou

最新推荐文章于 2024-06-06 16:40:29 发布

阅读量2.9k

点赞数 1

分类专栏： NLP 文章标签：神经网络 word2vec 地域分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jilezhou/article/details/50459623

版权

本文介绍了使用word2vec和神经网络构建文章地域分类器的过程，包括问题描述、方案设计、数据构造和模型训练。通过分词、训练word2vec模型和神经网络分类器，最终达到了较好的分类效果。

摘要由CSDN通过智能技术生成

问题描述

最近要开发一个文章的地域分类器用于本地化推荐。简单地说，就是给定一篇文章，判断这篇文章属于以下哪个地域（或者不属于任何地域）：

大连、福州、成都、重庆、东莞、佛山、南京、哈尔滨、杭州、济南、青岛、厦门、深圳、沈阳、苏州、天津、温州、武汉、西安、郑州

首先google之，避免重复造轮子，然而并没有找到相关的开源工具（也可能是我没找到），那就决定自己动手了。

方案设计

由于之前一直有听说google的word2vec，却从没有用过；故而这次想基于word2vec来表征单词和文章。因为相比于tfidf的one-hot表征，word2vec能挖掘词与词之间的相似度（基于上下文）。就像word2vec项目首页所描述的那样:

vector(‘Paris’) - vector(‘France’) + vector(‘Italy’) 与 vector(‘Rome’)非常接近

尽管我觉得这种关系可能带来某种副作用，比如两个很相似的城市（e.g. 北京和天津）可能会难以被区分；但是这个模型所带来的增益应该会大于这个不足。

word2vec是将每个词映射成一个向量，所以在此之前，还需要将文章进行分词，我使用的是jieba分词。然而一篇文章 $D_k$ 由不定长的词集合构成 $\{w_i\}_{i=1}^{|D_k|}$ ，假设每个词由 $d$ 维的向量表示，这样用一个定长的向量来表示文档 $D_k$ 则变成了一个Aggregating local descriptors问题（对应于图像中的多个sift局部特征表示一副图像），有几种方法可以产生定长的向量（我所知道的）：

mean pooling
max pooling
bag of words
Fisher
Aggregating local descriptors into a compact image representation

这里，我使用最简单的mean pooling，即

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
利用word2vec和神经网络构造文章地域分类器（一）

问题描述方案设计数据构造模型训练分词训练word2vec模型训练神经网络分类器实验结果问题描述最近要开发一个文章的地域分类器用于本地化推荐。简单地说，就是给定一篇文章，判断这篇文章属于以下哪个地域（或者不属于任何地域）：大连、福州、成都、重庆、东莞、佛山、南京、哈尔滨、杭州、济南、青岛、厦门、深圳、沈阳、苏州、天津、温州、武汉、西安、郑州首先google之，避免重复造轮子，然而
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。