根据liuhuanyong模型改动,尝试推广到其它领域
原始模型连接:
1.crime_classify-train.py类
CrimeClassify类的init函数:
先要改动crime_file ,是所有的罪名,要推广到其它领域先改动这里,如图:
one/two文件内容如下:
第二个要改动train_file,这里不需要有这个文件,只是一个路径,你 运行完build_data产生的文件就是这个文件
腾讯词向量下载链接:
改动embedding_path,为你的词向量,我手头数据太少直接用的腾讯的词向量
改动embedding_size为你的词向量的维度,腾讯的是100维度
对于改动model_path你改不改都行
第三个就可以去跑build_data方法了,dict/onetwo.txt 是我训练集中,事件所包含的所有类型的文件,上面也展示了,f 是你数据处理后产生的数据:
这里需要重点说一下train.txt文件,这个训练数据是我根据他的程序反推出来的,注意我改动了一下crime,并且把上面的if判断注释了,具体如图:
数据如图: 标签 ### 原句 的形式
处理后的数据如图:
到此为止build_data方法可以完美运行了
我们调整训练函数,可以debug跟着test()一步步往下走
进入我全出来的函数可以明白,整体svm怎么数据处理到训练的
你的训练数据如果像我一样,还没有分词,把flag要改动一下
最后要改动的是load_embeding, 这里的100对应你的词向量维度
最后测试一下结果,去实体化predict()方法就好,可以看出效果还不错的,但泛化性不好