自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 【GNN】使用图神经网络处理图数据

定义一个简单的图神经网络模型,这里使用Graph Convolutional Network(GCN)。# 创建模型上面的代码展示了一个简单的图神经网络模型的实现流程,包括数据准备、模型定义、训练和评估。在实际应用中,可能需要处理更复杂的数据并进行更细致的调参和优化。可以进一步扩展这个代码来适应具体的法律文书合规性检查任务,如增加更多的特征、使用更复杂的图神经网络模型、以及处理更大规模的图数据。

2024-06-23 21:42:24 329

原创 Doccano 数据标注平台简介与安装

Doccano 是一个用户友好的在线数据标注平台。直观的用户界面:用户可以通过简单的操作完成复杂的标注任务。多语言支持:支持多种语言的文本标注,适用于全球用户。多种标注类型:支持命名实体识别、文本分类和序列标注等任务。团队协作:支持多用户协作,适合团队项目。这些功能使得 Doccano 成为一个高效且灵活的数据标注工具,广泛应用于学术研究和工业项目中。

2024-06-23 21:15:00 2410

原创 【总结】法律文书知识图谱实现全程

这次项目实训中,我学到了许多,包括将搜集到的数据进行整理(如将txt文件合并成jsonl文件)使用Doccano对数据进行半人工标注,进而用人工标注的数据对bert_base_chinese模型进行微调,最后就是完成任务的关键在于结合BERT的强大编码能力和指针网络的联合解码机制,有效地抽取出法律文书中的实体和关系信息,为后续构建法律文书合规性检测提供了方向和结构性数据。

2024-06-23 14:43:55 544

原创 【项目实训11】基于PyTorch的BERT

BERT模型的核心思想在于其双向性和预训练方法。通过在大规模无标注文本数据上进行预训练,BERT能够学习到通用的语言表示,然后在特定任务上进行微调,从而达到优异的性能。

2024-06-22 17:00:00 899

原创 【项目实训10】基于PyTorch的Transformer

Transformer模型依赖于自注意力机制和前馈神经网络,摆脱了传统RNN和LSTM的顺序处理限制,实现了并行计算和更好的长距离依赖建模。我们将从PyTorch的源码出发,逐步解析其实现。

2024-06-22 15:00:00 287

原创 【项目实训9】BERT——深度双向Transformer的预训练模型

BERT模型的核心创新在于其双向性(Bidirectional)和预训练(Pre-training)方法。传统的语言模型通常是单向的(从左到右或从右到左),而BERT通过双向Transformer架构,使得模型能够同时考虑上下文的左右两侧信息,从而捕捉更丰富的语义表示。

2024-06-22 13:00:00 452

原创 【项目实训8】Attention Is All You Need

Transformer模型的核心思想是通过自注意力机制(Self-Attention)来捕捉序列中不同位置的依赖关系,而无需逐步处理序列数据。这种方法不仅提高了并行计算的效率,还能更好地捕捉远距离的依赖关系。

2024-06-22 08:50:37 435

原创 【项目实训7】基于Bert的联合实体与关系抽取模型设计与应用

经实验发现,本项目由于存在文本数据中经常会在上下句同时出现一个实体的问题,pipline 模式的抽取方法不适用于本项目,故采用联合抽取的方法。由于数据集数量巨大,使用cpu速度较慢(初步计算每轮训练要两天),在改用gpu训练的过程中遇到问题,命令行中cuda是正常的,pycharm中cuda就识别不到。采用联合抽取的方法,直接从文本中同时抽取实体和关系,避免了传统管道方法中的误差累积问题。

2024-05-31 10:39:43 2371

原创 【项目实训6】NLTK安装及使用

NLTK包含许多需要下载的数据资源,如语料库、词典等。这将打开一个图形界面,你可以选择需要下载的数据资源。通过上述步骤,可以安装并开始使用NLTK进行各种自然语言处理任务。首先,确保已经安装了Python。下载并安装最新版本的Python。

2024-05-29 10:00:00 502

原创 【项目实训5】词嵌入

词嵌入(Word Embedding)是一种将词汇映射到向量空间的方法,使得词汇的语义相似性可以通过向量之间的距离来表示。词嵌入技术在自然语言处理(NLP)领域非常重要,它使得计算机能够更好地理解和处理人类语言。

2024-05-28 17:43:19 384

原创 项目实训学习路线

1. 计算机科学基础编程语言:Python、JavaScript 数据结构与算法2. 自然语言处理(NLP)基础概念:词嵌入、序列模型、注意力机制等 工具与库:NLTK、spaCy、Transformers3. 机器学习与深度学习基础知识:监督学习、无监督学习、神经网络 深度学习框架:TensorFlow、PyTorch4. 知识图谱基本概念:RDF、OWL、SPARQL 工具与平台:Protégé、Neo4j5. 法律知识法律基础:了解基本法律概念和术语 专业领域:深

2024-05-23 18:02:41 175 1

原创 【项目实训4】DISC-LawLLM

阅读法律相关大模型论文。

2024-05-23 17:46:16 1743 1

原创 【项目实训3】GPT3学习

是一篇由Tom B.。这篇论文探讨了大规模语言模型在少样本学习任务中的表现。

2024-05-20 10:00:00 437

原创 【项目实训2】BERT模型学习

(Bidirectional Encoder Representations from Transformers)是一种由Google开发的预训练语言表征模型。它使用两个步骤——预训练和微调,以创建用于各种任务的最先进模型。

2024-05-19 17:51:52 211

原创 【项目实训1】Neo4j安装与使用

neo4j安装与使用

2024-04-25 16:01:55 691

原创 裁判文书项目

1。

2024-03-26 22:54:14 101

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除