SophoraeT_t-CSDN博客

原创【GNN】使用图神经网络处理图数据

定义一个简单的图神经网络模型，这里使用Graph Convolutional Network（GCN）。# 创建模型上面的代码展示了一个简单的图神经网络模型的实现流程，包括数据准备、模型定义、训练和评估。在实际应用中，可能需要处理更复杂的数据并进行更细致的调参和优化。可以进一步扩展这个代码来适应具体的法律文书合规性检查任务，如增加更多的特征、使用更复杂的图神经网络模型、以及处理更大规模的图数据。

2024-06-23 21:42:24 329

原创 Doccano 数据标注平台简介与安装

Doccano 是一个用户友好的在线数据标注平台。直观的用户界面：用户可以通过简单的操作完成复杂的标注任务。多语言支持：支持多种语言的文本标注，适用于全球用户。多种标注类型：支持命名实体识别、文本分类和序列标注等任务。团队协作：支持多用户协作，适合团队项目。这些功能使得 Doccano 成为一个高效且灵活的数据标注工具，广泛应用于学术研究和工业项目中。

2024-06-23 21:15:00 2410

原创【总结】法律文书知识图谱实现全程

这次项目实训中，我学到了许多，包括将搜集到的数据进行整理（如将txt文件合并成jsonl文件）使用Doccano对数据进行半人工标注，进而用人工标注的数据对bert_base_chinese模型进行微调，最后就是完成任务的关键在于结合BERT的强大编码能力和指针网络的联合解码机制，有效地抽取出法律文书中的实体和关系信息，为后续构建法律文书合规性检测提供了方向和结构性数据。

2024-06-23 14:43:55 544

原创【项目实训11】基于PyTorch的BERT

BERT模型的核心思想在于其双向性和预训练方法。通过在大规模无标注文本数据上进行预训练，BERT能够学习到通用的语言表示，然后在特定任务上进行微调，从而达到优异的性能。

2024-06-22 17:00:00 899

原创【项目实训10】基于PyTorch的Transformer

Transformer模型依赖于自注意力机制和前馈神经网络，摆脱了传统RNN和LSTM的顺序处理限制，实现了并行计算和更好的长距离依赖建模。我们将从PyTorch的源码出发，逐步解析其实现。

2024-06-22 15:00:00 287

原创【项目实训9】BERT——深度双向Transformer的预训练模型

BERT模型的核心创新在于其双向性（Bidirectional）和预训练（Pre-training）方法。传统的语言模型通常是单向的（从左到右或从右到左），而BERT通过双向Transformer架构，使得模型能够同时考虑上下文的左右两侧信息，从而捕捉更丰富的语义表示。

2024-06-22 13:00:00 452

原创【项目实训8】Attention Is All You Need

Transformer模型的核心思想是通过自注意力机制（Self-Attention）来捕捉序列中不同位置的依赖关系，而无需逐步处理序列数据。这种方法不仅提高了并行计算的效率，还能更好地捕捉远距离的依赖关系。

2024-06-22 08:50:37 435

原创【项目实训7】基于Bert的联合实体与关系抽取模型设计与应用

经实验发现，本项目由于存在文本数据中经常会在上下句同时出现一个实体的问题，pipline 模式的抽取方法不适用于本项目，故采用联合抽取的方法。由于数据集数量巨大，使用cpu速度较慢(初步计算每轮训练要两天），在改用gpu训练的过程中遇到问题，命令行中cuda是正常的，pycharm中cuda就识别不到。采用联合抽取的方法，直接从文本中同时抽取实体和关系，避免了传统管道方法中的误差累积问题。

2024-05-31 10:39:43 2371

原创【项目实训6】NLTK安装及使用

NLTK包含许多需要下载的数据资源，如语料库、词典等。这将打开一个图形界面，你可以选择需要下载的数据资源。通过上述步骤，可以安装并开始使用NLTK进行各种自然语言处理任务。首先，确保已经安装了Python。下载并安装最新版本的Python。

2024-05-29 10:00:00 502

原创【项目实训5】词嵌入

词嵌入（Word Embedding）是一种将词汇映射到向量空间的方法，使得词汇的语义相似性可以通过向量之间的距离来表示。词嵌入技术在自然语言处理（NLP）领域非常重要，它使得计算机能够更好地理解和处理人类语言。

2024-05-28 17:43:19 384

1. 计算机科学基础编程语言：Python、JavaScript 数据结构与算法2. 自然语言处理（NLP）基础概念：词嵌入、序列模型、注意力机制等工具与库：NLTK、spaCy、Transformers3. 机器学习与深度学习基础知识：监督学习、无监督学习、神经网络深度学习框架：TensorFlow、PyTorch4. 知识图谱基本概念：RDF、OWL、SPARQL 工具与平台：Protégé、Neo4j5. 法律知识法律基础：了解基本法律概念和术语专业领域：深

2024-05-23 18:02:41 175 1