随心所欲～～-CSDN博客

原创数据准备及预处理

这部分主要是加载预训练模型和对应的分词器，并进行必要的配置，使其适合用于训练或推断阶段。

2024-06-21 19:39:52 741

原创模型的训练

在深度学习中，位置编码是一种关键技术，用于模型理解输入序列中各个位置的相对关系。# exit()return (return (通过替换 LlamaRotaryEmbedding类的初始化和前向传播方法，实现了对其行为的自定义修改。具体修改包括在初始化方法中保存额外的参数，并在前向传播方法中根据输入的seq_len动态计算余弦和正弦矩阵，从而实现了更灵活和适应性更强的功能。

2024-06-21 19:39:04 1715

原创模板对话系统（二）

上一篇博客我们简单介绍了我们构建的模板对话系统，这部分我们来介绍一下其中的比较关键的一些方法。

2024-06-21 18:38:58 812

原创模板对话系统

基于模板的对话系统作为其中一种经典方法，通过预定义的结构化模板来生成对话，不仅提升了系统的可理解性，还能够使得对话更加自然和符合上下文。以下是我们本次对话系统的实现过程。

2024-06-21 18:24:21 774

原创数据转存为json

本次操作主要是将所有的文件转到同一个json文件中，这样方便后续的处理过程，否则的话需要遍历所有的文件夹和文件，这样过于繁琐！

2024-06-15 20:17:46 722

原创数据整理（裁判文书）

在上一次的博客中，我们写了如何对网站的数据进行爬取。这是其中一篇爬取到的结果：可以看到，从网站上爬取到的数据虽然全部文本格式的内容，但是很杂乱，很多的地方都多了莫名其妙的空格。所以我们需要对数据进行一定的处理，使文本看起来稍微规范化一些。

2024-06-14 19:07:10 809

原创数据获取（代码实现）

本次爬取的过程总体难度不是特别大，其中遇见了一些小挫折，但是好在都顺利的解决了，成功的获取到了需要的数据集。爬虫是获取大量数据最好的办法，这门技术还是要好好掌握！

2024-06-10 21:54:18 2049 1

原创爬虫实现裁判文书获取（爬取网站的分析）

本次爬取网站总体看下来最后的实现应该不会特别难，但是需要注意我们需要从首页的搜索框进入列表页，不能直接进入列表页进行搜索，不然数据集会少得可怜我们必须要根据处罚年份进行筛选，因为它只展示200条数据，也就是每个关键词只提供200条数据爬取时，需要的信息展现在了pdf文档中，我们可能需要获取每一页的信息最后再整合。

2024-06-10 11:21:35 2959 1