BERT 有多厉害我就在这不用讲了,我也不想过多介绍,因为自己也是一个初学者。网上有很多好的介绍与资料,读完让人受益匪浅。这篇博客记录的是我前几天使用bert做的一个小测试,用bert用于推特的情感分析。因为这段时间参加某个比赛要用到,但是没办法一直全身心的投入,总是有各种事情打断,让我很苦恼。怕以后突然想起来,又忘记怎么做了,所以写下了,供以后参考。
情感分类觉得是自然语言处理最常见和简单的一类任务了,只是对文本进行二分类,在此不多赘述。让BERT使用在自己数据集的进行情感分析也非常的容易,你只要根据google公布的代码添加几行就行。我采用的数据是李宏毅教授上课的数据,我个人非常推崇李宏毅老师的深度学习课程,感觉非常适合国人,也可能是我英语太渣的缘故吧。在此放出他的课程地址李宏毅机器学习课程,如果没有梯子的话,可以去b站和网易云课堂上观看。对了,猪场的良心APP我要提名网易云课堂一个,扯远了。数据集是李宏毅教授Machine Learning and having it deep and structured (2018,Spring)课上的hw0,其他的homework感觉也非常有意思,以后肯定有时间我也要跑一下,虽然觉得每当立下flag,后面肯定不会实现的。接下来是正文!!
首先是下载数据集,如果那个链接挂了,么得关系我会传到github上。主要是下载trianing_label.csv 和testing_data.csv,每个文件有200000条数据。然后下载BERT的源码和模型,模型我下载的是BERT-Base,Uncased ,自己可根据情况下载,具体请参考google 的官方说明,然后git clone 下BERT的源码,嘿嘿。在自己本地的文件夹建一个twitter_sentiment_analysis 的文件夹。然后建bert_base_dir 、test_bert、data 的子文件,这个名字当然自己取啦,开心就好。将下载的BERT-Base,Uncased 解压放入到bert_base_dir 里,将下载的源码放到test_bert 文件夹里,数据集放入data文件夹里。准备工作做好啦~
首先阅读了两遍官方文档,跑了一下官方给的例子,不晓得啥意思。网上搜索到一篇文章