新软攀峰的一点感受

最新推荐文章于 2024-07-23 16:23:28 发布

qq_42686063

最新推荐文章于 2024-07-23 16:23:28 发布

阅读量191

点赞数

文章标签： python 大数据中文文本评论

本文链接：https://blog.csdn.net/qq_42686063/article/details/90703796

版权

参加了一个新软攀峰的比赛，关于中文文本分词，预测得分的。
真正自己搭建了一个神经网络是这次的最大收获吧。
说下这个的顺序：我最开始就是想要用神经网络，因为神经网络的输入不可以是文字，所以要把文本转化为数字。因为本人为萌新，所以搜索了下，这个叫NLP，特征工程。Count，Token，还有那个tf-idf，我都试过。但是因为操作不好，所以转向量卡住了。后来看了一个大佬的博客，用了word2vec。
word2vec我是下载了wiki百科的文章，作为语料训练了一个模型。然后正常，把我们自己的文本拿来分词，去停用词，然后分行输入自己训练的模型。得到词向量再输入神经网络。
我的神经网络没有那么复杂，就是用python 的keras，直接搭建了4层的bp神经网络。
结果不是很好，正确率46%。后来发现，训练的模型有点问题，在训练模型的时候可以设置为skip-gram，而不是default。这样之后应该会不错，然后在训练神经网络的epoch不要太多。因为会过拟合，导致训练集的准确度很高，但结果不理想。
我们是给了2万条评论和它们的评分，作为模型的训练集，然后再预测70万条评论的分数。
训练集有点弊端，1，2分的过少，导致识别不是很准确，而且4，5分的评论过于相似，同样不好弄。还有一些评论过于沙雕，明明评论很好但只给1分。同参加比赛的有大佬使用cnn+rnn来进行预测，被评委老师逮住一通怼，咱也不敢问。顺便说一下，如果word2vec使用skip-gram模型的话，训练会非常慢，而且推荐不会调用GPU之类的小白不要尝试去训练70万条数据，因为那样，你的电脑很容易爆炸。我的是戴尔游匣18年初买的，开始的时候还好，后来各种蓝屏，不敢弄了。最后记一下步骤，留着以后有机会换电脑，再重新做一下：
1.下载wiki语料，分词，去停用词；
2.使用word2vec训练模型；
3.把自己的预料分词，去停用词，调用模型，得到词向量。
4.搭建一个rnn，少训练几轮，换一下激活函数和转换函数，比如relu，softmax；
5记得要弄个GPU什么的，尽量不要搞自己的电脑；
6.早做，因为训练模型很慢。[下面是那个大佬的代码，大家可以借鉴一下，就是他建立模型的时候是用的python2，需要修改一下。]
(https://github.com/AimeeLee77/wiki_zh_word2vec#start-of-content)

qq_42686063

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
新软攀峰的一点感受

参加了一个新软攀峰的比赛，关于中文文本分词，预测得分的。真正自己搭建了一个神经网络是这次的最大收获吧。说下这个的顺序：我最开始就是想要用神经网络，因为神经网络的输入不可以是文字，所以要把文本转化为数字。因为本人为萌新，所以搜索了下，这个叫NLP，特征工程。Count，Token，还有那个tf-idf，我都试过。但是因为操作不好，所以转向量卡住了。后来看了一个大佬的博客，用了word2vec。...
复制链接

扫一扫