裁判文书项目
文章平均质量分 74
基于LLM的裁判文书项目
SophoraeT_t
这个作者很懒,什么都没留下…
展开
-
Doccano 数据标注平台简介与安装
Doccano 是一个用户友好的在线数据标注平台。直观的用户界面:用户可以通过简单的操作完成复杂的标注任务。多语言支持:支持多种语言的文本标注,适用于全球用户。多种标注类型:支持命名实体识别、文本分类和序列标注等任务。团队协作:支持多用户协作,适合团队项目。这些功能使得 Doccano 成为一个高效且灵活的数据标注工具,广泛应用于学术研究和工业项目中。原创 2024-06-23 21:15:00 · 2329 阅读 · 0 评论 -
【总结】法律文书知识图谱实现全程
这次项目实训中,我学到了许多,包括将搜集到的数据进行整理(如将txt文件合并成jsonl文件)使用Doccano对数据进行半人工标注,进而用人工标注的数据对bert_base_chinese模型进行微调,最后就是完成任务的关键在于结合BERT的强大编码能力和指针网络的联合解码机制,有效地抽取出法律文书中的实体和关系信息,为后续构建法律文书合规性检测提供了方向和结构性数据。原创 2024-06-23 14:43:55 · 414 阅读 · 0 评论 -
【项目实训11】基于PyTorch的BERT
BERT模型的核心思想在于其双向性和预训练方法。通过在大规模无标注文本数据上进行预训练,BERT能够学习到通用的语言表示,然后在特定任务上进行微调,从而达到优异的性能。原创 2024-06-22 17:00:00 · 832 阅读 · 0 评论 -
【项目实训10】基于PyTorch的Transformer
Transformer模型依赖于自注意力机制和前馈神经网络,摆脱了传统RNN和LSTM的顺序处理限制,实现了并行计算和更好的长距离依赖建模。我们将从PyTorch的源码出发,逐步解析其实现。原创 2024-06-22 15:00:00 · 251 阅读 · 0 评论 -
【项目实训8】Attention Is All You Need
Transformer模型的核心思想是通过自注意力机制(Self-Attention)来捕捉序列中不同位置的依赖关系,而无需逐步处理序列数据。这种方法不仅提高了并行计算的效率,还能更好地捕捉远距离的依赖关系。原创 2024-06-22 08:50:37 · 418 阅读 · 0 评论 -
【项目实训7】基于Bert的联合实体与关系抽取模型设计与应用
经实验发现,本项目由于存在文本数据中经常会在上下句同时出现一个实体的问题,pipline 模式的抽取方法不适用于本项目,故采用联合抽取的方法。由于数据集数量巨大,使用cpu速度较慢(初步计算每轮训练要两天),在改用gpu训练的过程中遇到问题,命令行中cuda是正常的,pycharm中cuda就识别不到。采用联合抽取的方法,直接从文本中同时抽取实体和关系,避免了传统管道方法中的误差累积问题。原创 2024-05-31 10:39:43 · 2219 阅读 · 0 评论 -
【项目实训6】NLTK安装及使用
NLTK包含许多需要下载的数据资源,如语料库、词典等。这将打开一个图形界面,你可以选择需要下载的数据资源。通过上述步骤,可以安装并开始使用NLTK进行各种自然语言处理任务。首先,确保已经安装了Python。下载并安装最新版本的Python。原创 2024-05-29 10:00:00 · 369 阅读 · 0 评论 -
【项目实训5】词嵌入
词嵌入(Word Embedding)是一种将词汇映射到向量空间的方法,使得词汇的语义相似性可以通过向量之间的距离来表示。词嵌入技术在自然语言处理(NLP)领域非常重要,它使得计算机能够更好地理解和处理人类语言。原创 2024-05-28 17:43:19 · 372 阅读 · 0 评论 -
项目实训学习路线
1. 计算机科学基础编程语言:Python、JavaScript 数据结构与算法2. 自然语言处理(NLP)基础概念:词嵌入、序列模型、注意力机制等 工具与库:NLTK、spaCy、Transformers3. 机器学习与深度学习基础知识:监督学习、无监督学习、神经网络 深度学习框架:TensorFlow、PyTorch4. 知识图谱基本概念:RDF、OWL、SPARQL 工具与平台:Protégé、Neo4j5. 法律知识法律基础:了解基本法律概念和术语 专业领域:深原创 2024-05-23 18:02:41 · 156 阅读 · 1 评论 -
【项目实训4】DISC-LawLLM
阅读法律相关大模型论文。原创 2024-05-23 17:46:16 · 1698 阅读 · 1 评论 -
【项目实训2】BERT模型学习
(Bidirectional Encoder Representations from Transformers)是一种由Google开发的预训练语言表征模型。它使用两个步骤——预训练和微调,以创建用于各种任务的最先进模型。原创 2024-05-19 17:51:52 · 197 阅读 · 0 评论 -
【项目实训1】Neo4j安装与使用
neo4j安装与使用原创 2024-04-25 16:01:55 · 499 阅读 · 0 评论