![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
裁判文书合规性审查项目
文章平均质量分 89
创新实训工作记录
随心所欲~~
这个作者很懒,什么都没留下…
展开
-
数据准备及预处理
这部分主要是加载预训练模型和对应的分词器,并进行必要的配置,使其适合用于训练或推断阶段。原创 2024-06-21 19:39:52 · 612 阅读 · 0 评论 -
模型的训练
在深度学习中,位置编码是一种关键技术,用于模型理解输入序列中各个位置的相对关系。# exit()return (return (通过替换 LlamaRotaryEmbedding类的初始化和前向传播方法,实现了对其行为的自定义修改。具体修改包括在初始化方法中保存额外的参数,并在前向传播方法中根据输入的seq_len动态计算余弦和正弦矩阵,从而实现了更灵活和适应性更强的功能。原创 2024-06-21 19:39:04 · 1570 阅读 · 0 评论 -
模板对话系统(二)
上一篇博客我们简单介绍了我们构建的模板对话系统,这部分我们来介绍一下其中的比较关键的一些方法。原创 2024-06-21 18:38:58 · 705 阅读 · 0 评论 -
模板对话系统
基于模板的对话系统作为其中一种经典方法,通过预定义的结构化模板来生成对话,不仅提升了系统的可理解性,还能够使得对话更加自然和符合上下文。以下是我们本次对话系统的实现过程。原创 2024-06-21 18:24:21 · 654 阅读 · 0 评论 -
数据转存为json
本次操作主要是将所有的文件转到同一个json文件中,这样方便后续的处理过程,否则的话需要遍历所有的文件夹和文件,这样过于繁琐!原创 2024-06-15 20:17:46 · 620 阅读 · 0 评论 -
数据整理(裁判文书)
在上一次的博客中,我们写了如何对网站的数据进行爬取。这是其中一篇爬取到的结果:可以看到,从网站上爬取到的数据虽然全部文本格式的内容,但是很杂乱,很多的地方都多了莫名其妙的空格。所以我们需要对数据进行一定的处理,使文本看起来稍微规范化一些。原创 2024-06-14 19:07:10 · 599 阅读 · 0 评论 -
爬虫实现裁判文书获取(爬取网站的分析)
本次爬取网站总体看下来最后的实现应该不会特别难,但是需要注意我们需要从首页的搜索框进入列表页,不能直接进入列表页进行搜索,不然数据集会少得可怜我们必须要根据处罚年份进行筛选,因为它只展示200条数据,也就是每个关键词只提供200条数据爬取时,需要的信息展现在了pdf文档中,我们可能需要获取每一页的信息最后再整合。原创 2024-06-10 11:21:35 · 1471 阅读 · 0 评论 -
数据获取(代码实现)
本次爬取的过程总体难度不是特别大,其中遇见了一些小挫折,但是好在都顺利的解决了,成功的获取到了需要的数据集。爬虫是获取大量数据最好的办法,这门技术还是要好好掌握!原创 2024-06-10 21:54:18 · 1556 阅读 · 0 评论 -
裁判文书数据收集与整理
烟草数据集,裁判文书原创 2024-05-30 22:41:03 · 843 阅读 · 0 评论