新软攀峰的一点感受

参加了一个新软攀峰的比赛,关于中文文本分词,预测得分的。
真正自己搭建了一个神经网络是这次的最大收获吧。
说下这个的顺序:我最开始就是想要用神经网络,因为神经网络的输入不可以是文字,所以要把文本转化为数字。因为本人为萌新,所以搜索了下,这个叫NLP,特征工程。Count,Token,还有那个tf-idf,我都试过。但是因为操作不好,所以转向量卡住了。后来看了一个大佬的博客,用了word2vec。
word2vec我是下载了wiki百科的文章,作为语料训练了一个模型。然后正常,把我们自己的文本拿来分词,去停用词,然后分行输入自己训练的模型。得到词向量再输入神经网络。
我的神经网络没有那么复杂,就是用python 的keras,直接搭建了4层的bp神经网络。
结果不是很好,正确率46%。后来发现,训练的模型有点问题,在训练模型的时候可以设置为skip-gram,而不是default。这样之后应该会不错,然后在训练神经网络的epoch不要太多。因为会过拟合,导致训练集的准确度很高,但结果不理想。
我们是给了2万条评论和它们的评分,作为模型的训练集,然后再预测70万条评论的分数。
训练集有点弊端,1,2分的过少,导致识别不是很准确,而且4,5分的评论过于相似,同样不好弄。还有一些评论过于沙雕,明明评论很好但只给1分。同参加比赛的有大佬使用cnn+rnn来进行预测,被评委老师逮住一通怼,咱也不敢问。顺便说一下,如果word2vec使用skip-gram模型的话,训练会非常慢,而且推荐不会调用GPU之类的小白不要尝试去训练70万条数据,因为那样,你的电脑很容易爆炸。我的是戴尔游匣18年初买的,开始的时候还好,后来各种蓝屏,不敢弄了。最后记一下步骤,留着以后有机会换电脑,再重新做一下:
1.下载wiki语料,分词,去停用词;
2.使用word2vec训练模型;
3.把自己的预料分词,去停用词,调用模型,得到词向量。
4.搭建一个rnn,少训练几轮,换一下激活函数和转换函数,比如relu,softmax;
5记得要弄个GPU什么的,尽量不要搞自己的电脑;
6.早做,因为训练模型很慢。[下面是那个大佬的代码,大家可以借鉴一下,就是他建立模型的时候是用的python2,需要修改一下。]
(https://github.com/AimeeLee77/wiki_zh_word2vec#start-of-content)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值