CrimeKgAssitant
Crime assistant including crime type prediction and crime consult service based on nlp methods and crime kg,罪名法务智能项目,内容包括856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能.
项目地址:https://github.com/liuhuanyong/CrimeKgAssitant
项目功能
目前知识图谱在各个行业中应用逐步打开,尤其在金融,医疗,法律,旅游方面.知识图谱助力法律智能,能够在一定程度上利用现有大数据以及机器学习/深度学习与自然语言处理技术,提供一些智能的解决方案.本项目将完成两个大方向的工作:
1, 以罪名为核心,收集相关数据,建成基本的罪名知识图谱,法务资讯对话知识库,案由量刑知识库.
2, 分别基于步骤1的结果,完成以下四个方面的工作:
- 基于案由量刑知识库的罪名预测模型
- 基于法务咨询对话知识库的法务问题类型分类
- 基于法务咨询对话知识库的法务问题自动问答服务
- 基于罪行知识图谱的知识查询
罪名预测
1, 问题类型:
罪名一共包括202种罪名,文件放在dict/crime.txt中, 详细内容举例如下:
妨害公务
寻衅滋事
盗窃、侮辱尸体
危险物品肇事
非法采矿
组织、强迫、引诱、容留、介绍卖淫
开设赌场
聚众斗殴
绑架
非法持有毒品
销售假冒注册商标的商品
容留他人吸毒
假冒注册商标
交通肇事
破坏电力设备
组织卖淫
合同诈骗
走私武器、弹药
抢劫
非法处置查封、扣押、冻结的财产
2, 问题模型:
罪刑数据库一共有288万条训练数据,要做的是202类型的罪名多分类问题.本项目采用的方式为:
训练数据规模 | 数据向量表示 | 模型 | 训练时长 | 准确率 |
---|---|---|---|---|
20W | doc embedding | svm | 0.5h | 0.83352184 |
288W | doc embedding | svm | 12h | 0.9203119 |
3, 效果:
执行 python crime_classify.py
crime desc:这宗案情凶残的案件中,受害人樊敏仪是一名夜总会舞女,1997年因筹措祖母的医药费,偷取任职皮条客的首被告陈文乐数千元港币及其他财物(另一说是指毒品债)。首被告陈文乐于是吩咐次被告梁胜祖及第三被告梁伟伦向女受害人追债。女受害人为求还清债项,怀孕后仍继续接客,3名被告将欠款不断提高,受害人因无力偿还,因而触怒三人。1999年3月17日梁胜祖及梁伟伦按照首被告要求,将受害人从葵涌丽瑶邨富瑶楼一单位押走