自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 数据准备及预处理

这部分主要是加载预训练模型和对应的分词器,并进行必要的配置,使其适合用于训练或推断阶段。

2024-06-21 19:39:52 741

原创 模型的训练

在深度学习中,位置编码是一种关键技术,用于模型理解输入序列中各个位置的相对关系。​# exit()​return (return (通过替换 LlamaRotaryEmbedding类的初始化和前向传播方法,实现了对其行为的自定义修改。具体修改包括在初始化方法中保存额外的参数,并在前向传播方法中根据输入的seq_len动态计算余弦和正弦矩阵,从而实现了更灵活和适应性更强的功能。

2024-06-21 19:39:04 1715

原创 模板对话系统(二)

上一篇博客我们简单介绍了我们构建的模板对话系统,这部分我们来介绍一下其中的比较关键的一些方法。

2024-06-21 18:38:58 812

原创 模板对话系统

基于模板的对话系统作为其中一种经典方法,通过预定义的结构化模板来生成对话,不仅提升了系统的可理解性,还能够使得对话更加自然和符合上下文。以下是我们本次对话系统的实现过程。

2024-06-21 18:24:21 774

原创 数据转存为json

本次操作主要是将所有的文件转到同一个json文件中,这样方便后续的处理过程,否则的话需要遍历所有的文件夹和文件,这样过于繁琐!

2024-06-15 20:17:46 722

原创 数据整理(裁判文书)

在上一次的博客中,我们写了如何对网站的数据进行爬取。这是其中一篇爬取到的结果:可以看到,从网站上爬取到的数据虽然全部文本格式的内容,但是很杂乱,很多的地方都多了莫名其妙的空格。所以我们需要对数据进行一定的处理,使文本看起来稍微规范化一些。

2024-06-14 19:07:10 809

原创 数据获取(代码实现)

本次爬取的过程总体难度不是特别大,其中遇见了一些小挫折,但是好在都顺利的解决了,成功的获取到了需要的数据集。爬虫是获取大量数据最好的办法,这门技术还是要好好掌握!

2024-06-10 21:54:18 2049 1

原创 爬虫实现裁判文书获取(爬取网站的分析)

本次爬取网站总体看下来最后的实现应该不会特别难,但是需要注意我们需要从首页的搜索框进入列表页,不能直接进入列表页进行搜索,不然数据集会少得可怜我们必须要根据处罚年份进行筛选,因为它只展示200条数据,也就是每个关键词只提供200条数据爬取时,需要的信息展现在了pdf文档中,我们可能需要获取每一页的信息最后再整合。

2024-06-10 11:21:35 2959 1

原创 裁判文书数据收集与整理

烟草数据集,裁判文书

2024-05-30 22:41:03 1222

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除