法研杯数据处理

最新推荐文章于 2024-06-08 09:46:24 发布

suuunnnyoy

最新推荐文章于 2024-06-08 09:46:24 发布

阅读量1.6k

点赞数

分类专栏：金鱼记忆文章标签：分类神经网络 fasttext 自然语言处理

本文链接：https://blog.csdn.net/qq_33067361/article/details/86487041

版权

9 篇文章 0 订阅

订阅专栏

罚金预测

从原始json文件中抽取出facts文本和punish_of_money标签。
将facts文本分词后写入data_train.txt文件（还是使用jieba，简单去除了长度小于等于1的词，没有筛选词性，单纯觉得如果生成神经网络模型的话会破坏上下文关系）
punish_of_money取log2后取整作为标签
将数据存成fasttext需要的格式，不需要生成词向量，因为fasttext可以自动生成词向量

选择fasttext模型，pip install下载的fasttext不支持windows，recall和precision跑出来的结果一直都是nan，需要自己下载资源后install。下载方式见https://blog.csdn.net/m0_37870649/article/details/80935307，在解压好的文件路径下打开cmd，注意首先要uninstall之前下载的fasttext，然后输入命令为py -3 setup.py install（我是用的python 3.6 不同版本的命令稍微有区别），调用的时候也有区别。但是问题是下载的install包没有评估的模块，但好在predict函数是有的，如果想要计算recall和precision还要自己写evaluation模块。
不想安装虚拟机或者双系统，所以最后采用了windows提供的wsl（windows subsystem for linux），简单的配置一下就可以了，我选择的是ubuntu，配置好了在bash里按照linux的方法使用就可以了，电脑中文件都在mnt文件夹中，在原py文件路径下运行就好了，亲测有效。

关注