法研杯数据处理

罚金预测

数据预处理

  • 从原始json文件中抽取出facts文本和punish_of_money标签。
  • 将facts文本分词后写入data_train.txt文件(还是使用jieba,简单去除了长度小于等于1的词,没有筛选词性,单纯觉得如果生成神经网络模型的话会破坏上下文关系)
  • punish_of_money取log2后取整作为标签
  • 将数据存成fasttext需要的格式,不需要生成词向量,因为fasttext可以自动生成词向量

模型训练

  • 选择fasttext模型,pip install下载的fasttext不支持windows,recall和precision跑出来的结果一直都是nan,需要自己下载资源后install。下载方式见https://blog.csdn.net/m0_37870649/article/details/80935307,在解压好的文件路径下打开cmd, 注意首先要uninstall之前下载的fasttext,然后输入命令为py -3 setup.py install(我是用的python 3.6 不同版本的命令稍微有区别),调用的时候也有区别。但是问题是下载的install包没有评估的模块,但好在predict函数是有的,如果想要计算recall和precision还要自己写evaluation模块。
  • 不想安装虚拟机或者双系统,所以最后采用了windows提供的wsl(windows subsystem for linux),简单的配置一下就可以了,我选择的是ubuntu,配置好了在bash里按照linux的方法使用就可以了,电脑中文件都在mnt文件夹中,在原py文件路径下运行就好了,亲测有效。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值