CrimeKgAssitant-master的案件分类模块思路整理(多标签分类模型)

根据liuhuanyong模型改动,尝试推广到其它领域

原始模型连接:

GitHub - liuhuanyong/CrimeKgAssitant: Crime assistant including crime type prediction and crime consult service based on nlp methods and crime kg,罪名法务智能项目,内容包括856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能.
 

1.crime_classify-train.py类

          CrimeClassify类的init函数:

           先要改动crime_file ,是所有的罪名,要推广到其它领域先改动这里,如图:

 

 one/two文件内容如下:

第二个要改动train_file,这里不需要有这个文件,只是一个路径,你 运行完build_data产生的文件就是这个文件

腾讯词向量下载链接:

              Embedding Datasets Download

              改动embedding_path,为你的词向量,我手头数据太少直接用的腾讯的词向量

             改动embedding_size为你的词向量的维度,腾讯的是100维度

              对于改动model_path你改不改都行

              

 

第三个就可以去跑build_data方法了,dict/onetwo.txt 是我训练集中,事件所包含的所有类型的文件,上面也展示了,f 是你数据处理后产生的数据:

 这里需要重点说一下train.txt文件,这个训练数据是我根据他的程序反推出来的,注意我改动了一下crime,并且把上面的if判断注释了,具体如图:

 数据如图:  标签 ### 原句      的形式

 处理后的数据如图:

    

 到此为止build_data方法可以完美运行了

我们调整训练函数,可以debug跟着test()一步步往下走

进入我全出来的函数可以明白,整体svm怎么数据处理到训练的

 

 

 你的训练数据如果像我一样,还没有分词,把flag要改动一下

 

 最后要改动的是load_embeding,     这里的100对应你的词向量维度

 最后测试一下结果,去实体化predict()方法就好,可以看出效果还不错的,但泛化性不好

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值