自然语言处理
文章平均质量分 71
自然语言处理相关内容
python__reported
python菜鸟入门,期待成为数据分析的大神;
互相帮助!
展开
-
帮师妹写的裁判文书内容提取程序:可做进一步提取模板
帮师妹写的裁判文书内容提取:可做进一步提取模板一、提取结果二、提取内容三、代码一、提取结果二、提取内容 需求内容为:被告、裁判文书案号、时间、地域、刑事强制措施、罪名、刑罚 整体运用的技术:主要采取的是正则匹配,因为裁判文书的这些表述是存在一定的模式的,法言法语的要求是的语言表述一般比较固定;当然在被告名字处正则匹配可能会遗漏,于是通过pyhanlp实体识别进行了进一步的精确化 遇到的一些问题:多主体不同罪名 这一问题主要通过被告名称进行定位,如果名字在该段文字中且存在这一罪名,原创 2021-02-27 22:10:52 · 3842 阅读 · 19 评论 -
Seq2Seq(keras)的理解:关于encoder_model和decoder_model
Seq2Seq_keras:关于encoder_model和decoder_model一、三个model(一)Seq2Seq之前的keras model:1、创建模型2、模型预测(二)Seq2Seq的keras model二、再次遇见seq2seq难点一:lstm难点二:return_sequences和return_state难点三:三个模型三、seq2seq全部代码一、三个model(一)Seq2Seq之前的keras model:1、创建模型# 多层感知机(MLP)模型from keras.原创 2021-07-03 09:40:28 · 1947 阅读 · 2 评论 -
RNN、self-attention、transform的浅显或许错误的理解
RNN、self-attention、transform的浅显或许错误的理解一、RNN的理解二、self-attention的理解三、Transform的理解四、结语所有的理解都是基于我匮乏的数学知识,当成y = kx+b来理解一、RNN的理解刚开始学的时候看了很多文章,但是感觉都是云里雾里,要么是数学要么是各种没有说明白的图,但是看的多了以后看到《难以置信!LSTM和GRU的解析从未如此清晰(动图+视频)》 《难以置信!LSTM和GRU的解析从未如此清晰(动图+视频)》.之后,有了自己简单但可能错误原创 2021-06-12 22:32:24 · 423 阅读 · 3 评论 -
法律领域中文分词
法律领域中文分词一、结果对比1、jieba的分词效果2、训练模型的分词效果3、自训练模型原因二、自训练模型难点1、专业名词2、姓名隐去3、模糊词语4、解决办法三、自训练模型核心代码一、结果对比1、jieba的分词效果2、训练模型的分词效果3、自训练模型原因如上所述,jieba分词在一般分词中效果还可以,但是在法律领域则不是那么准确,比如下面展示一些 内联代码片。中级 人民法院将中级人民法院拆开了,但是这不进行拆开应该会更好,法言法语中常常并不会“中级–停顿–人民法院,而是中级人民法院原创 2021-06-12 09:40:28 · 1261 阅读 · 3 评论 -
Keras实现NNLM神经网络语言模型
Keras实现NNLM神经网络语言模型一、NNML的效果二、一些问题三、实现代码及解释四、最终效果一、NNML的效果较为权威的说法为:输入词序列,求出输出值的概率值,表示根据输入预测出下一个词概率。简单的说:预测下一个词实现效果:感觉与索引差不多,唯一不同可能是词向量的存在即索引该词的概率二、一些问题参照的文章为金多:《神经网络语言模型 NNLM (Keras实现)》链接: 神经网络语言模型 NNLM (Keras实现).总裁余(余登武):《NNLM语言模型python实现(例子:基于中文语原创 2021-01-27 13:57:09 · 757 阅读 · 0 评论 -
python《深度学习》keras基本理解
python《深度学习》keras初步理解一、Sequential()二、层与神经元一、Sequential()from keras import models#构架模型from keras import layers#神经网络层from keras.datasets import imdb#其中imdb是电影评论数据集,但是被处理过, 已被编码过了,所以只有index,而没有实际内容,需要进行转化model = models.Sequential()#网络结构决定了假设空间,这是线性堆叠方式原创 2021-01-06 18:17:10 · 993 阅读 · 0 评论 -
python机器学习基础教程第七章Traceback (most recent call last):OSError: [E050] Can‘t find model ‘en‘.
OSError: [E050] Can't find model 'en'.一、问题二、方法三、下载成功一、问题初次导入spacy的英语模型时报错:Traceback (most recent call last):File "... ...", line 12, in <module>en_nlp = spacy.load('en') File "D:\Users\Administrator\AppData\Local\Programs\Python\Python37\lib\si原创 2021-01-03 16:03:28 · 1629 阅读 · 1 评论 -
裁判文书上诉理由分类统计
裁判文书上诉理由分类统计一、统计结果二、实现方法(一)裁判文书上诉理由提取1、分类标准2、裁判文书内容提取方式3、实现代码4、标签贴好后三、文本分类(一)文本分类源码来源(二)数据结构和修改的地方(三)预测过程四、结语一、统计结果对这12927份裁判文书进行清洗后,有效文书数量约为10858份,有效率约为84%。二、实现方法(一)裁判文书上诉理由提取1、分类标准不认罪、罪名异议、量刑过重,量刑异议、程序瑕疵、其它。这一上诉理由分类的依据为罪名、量刑、程序。即犯罪嫌疑人被告人的上诉理由为一审事原创 2020-10-31 21:32:04 · 1091 阅读 · 0 评论 -
text-cnn裁判文书分类
text-cnn裁判文书分类一、数据集二、训练过程三、成果一、数据集使用爬虫获取的26万份裁判文书,可以在链接: 裁判文书.训练模型源自链接: Text Classification with CNN and RNN.二、训练过程一共训练5轮数据格式为目录:标签名,文本为内容写入方法def wenshu_cut(): with open(r"J:\PyCharm项目\github项目\文本分类\罪名分类\罪名分类.json", "r")as f: train_text = {原创 2020-08-29 22:08:49 · 3652 阅读 · 18 评论 -
wiki百科词向量训练资料及其模型
wiki百科词向量训练模型一、结果预览二、作用训练过程(一)下载问题解决下载方式一:下载方式二:下载方式三:(二)训练过程的问题一、结果预览目标为求取python相关的内容为:从结果上看,与python相关的内容为java、perl等编程语言二、作用个人简单理解:就是寻找相关的词,如上面的oython是一种编程语言,而perl、java等也是如此,但是又不是近义词,比如bash,bash是linux的命令处理器。扩展用途:通过相关联的词进行分类、推荐(如广告推荐)、比较相似度等等;(个人觉得原创 2020-08-08 14:24:57 · 2750 阅读 · 0 评论 -
texthero的初次使用
texthero的初次使用一、下载一、下载最简单的就是直接pip下载pip install texthero但是有许多依赖库同时在初次使用时还会对一些数据进行下载,注意:对于这些数据的下载是需要挂上vpn的,否者下载不下来二、初次使用基本就是照搬texthero的示例,只是我用中文测试了一下中文测试内容来源:《对话|“我是讽刺那些假大师”,当武术表演遭遇网红行为艺术》澎湃新闻记者 蒲垚磊2020-07-27 15:39 来源:澎湃新闻选中的内容就是测试的内容 """简单的文本清原创 2020-07-28 14:08:26 · 2688 阅读 · 1 评论