2023年第九届“数维杯”国际大学生数学建模挑战赛C题详细解析（LSTM + BERT + Siamese Network）

最新推荐文章于 2023-11-17 12:51:55 发布

Unicorn建模

最新推荐文章于 2023-11-17 12:51:55 发布

阅读量1.3k

点赞数

文章标签：数学建模 lstm bert python

本文链接：https://blog.csdn.net/2301_80749953/article/details/134452491

版权

这次“数维杯”咱们Unicorn建模团队继续出征！根据我们团队的分析，本次比赛的C题相对来说难度不是很大，如果做过深度学习相关的同学可以大胆去选择该题进行作答！

首先先来回顾一下题目：

问题综述：

近年来，随着信息技术的迅猛发展，人工智能的各种应用层出不穷。典型的应用包括机器人导航、语音识别、图像识别、自然语言处理以及智能推荐等。由ChatGPT等大型语言模型（LLMs）主导的大语言模型在全球范围内备受欢迎，并得到广泛推广和使用。然而，虽然我们充分认识到这些模型为人们带来的丰富、智能和便捷体验，但也必须注意到使用AI文本生成等工具可能带来的许多风险。

问题一: AI文本生成规则推断

使用AI根据提供的Web of Science链接重写文章的部分，统计性地推断AI文本生成的基本规则。考虑的参数包括字数、生成次数、是否翻译以及文本生成的风格。

问题二: AI段落生成识别

评估附录III中提供的十篇文章中的每一段是否由AI生成。考虑的因素包括语言、翻译、生成频率以及字数限制等。

问题三: AI段落生成评估

类似问题二，在附录III中的十篇文章中基于语言、翻译、生成频率以及字数限制等因素评估AI生成的段落。

问题四: 数学模型中的剽窃检测

建立相关理论和方法，进一步确定文章中的数学模型、图像和公式是否是剽窃内容。使用附录IV中的例子来演示和评估建立的模型。

问题1可以建立LSTM模型进行解决，建模过程如下：

1. 数据准备:

- 从Web of Science提供的链接中获取文章数据，对文章进行预处理，包括去除HTML标签、处理特殊字符、分句、分段等。

- 将文本数据划分为训练集和测试集。

2. 文本向量化:

- 使用词嵌入技术，将文本数据转换为向量表示，例如使用Word2Vec或GloVe。

- 考虑使用预训练的嵌入模型，以便更好地捕捉词汇之间的语义关系。

3. 序列生成模型设计:

- 构建LSTM（长短时记忆网络）模型，用于生成文本序列。

- 输入层使用文本向量化后的序列，可以考虑使用前一段文字作为上下文。

- 设置LSTM层，决定层数和每层的单元数，以便模型能够捕捉文本中的长期依赖关系。

- 输出层的激活函数使用softmax，以生成下一个词的概率分布。

4. 模型训练:

- 使用训练集对LSTM模型进行训练，优化模型参数。

- 设定适当的损失函数，例如交叉熵损失，反映生成文本与目标文本之间的差异。

- 使用梯度下降或其他优化算法进行模型参数的更新。

5. 模型生成:

- 在测试集上评估模型的性能，检查生成文本的质量。

- 通过调整温度参数来控制生成文本的创造性和多样性，温度较高会增加随机性，而温度较低则更加确定性。

6. 模型评估:

- 使用BLEU分数、ROUGE分数等评估指标来量化生成文本与目标文本之间的相似性。

- 对生成文本进行人工评估，确保生成的文本在语法、语义和风格上符合要求。

7. 超参数调整:

- 调整LSTM模型的超参数，包括学习率、批大小、LSTM层的数量和单元数等，以提高模型性能。

- 使用交叉验证等技术进行超参数调整。

8. 结果分析与改进:

- 分析生成文本的规律，了解LSTM模型在生成文本时的表现。

- 根据分析结果进行模型改进，可能需要调整模型结构或优化算法。

示例代码如下：

import requests
from bs4 import BeautifulSoup

def get_text_from_url(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    paragraphs = soup.find_all('p')  # 假设文章的段落是用 <p> 标签包裹的

    text = ""
    for paragraph in paragraphs:
        text += paragraph.get_text() + " "

    return text

# 以Web of Science提供的链接为例
article_url = "https://www.example.com/article"
article_text = get_text_from_url(article_url)

import re

def preprocess_text(text):
    # 去除特殊字符和数字
    text = re.sub(r'[^a-zA-Z\s]', '', text)
    # 转换为小写
    text = text.lower()
    return text

preprocessed_text = preprocess_text(article_text)

import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# 使用上述 preprocessed_text
texts = [preprocessed_text]

# 文本向量化
tokenizer = Tokenizer()
tokenizer.fit_on_texts(texts)
total_words = len(tokenizer.word_index) + 1

input_sequences = []
for line in texts:
    token_list = tokenizer.texts_to_sequences([line])[0]
    for i in range(1, len(token_list)):
        n_gram_sequence = token_list[:i+1]
        input_sequences.append(n_gram_sequence)

# Padding
max_sequence_length = max([len(seq) for seq in input_sequences])
input_sequences = pad_sequences(input_sequences, maxlen=max_sequence_length, padding='pre')

# 创建输入和输出
X, y = input_sequences[:, :-1], input_sequences[:, -1]
y = np.array(tf.keras.utils.to_categorical(y, num_classes=total_words))

# 构建LSTM模型
model = Sequential()
model.add(Embedding(total_words, 50, input_length=max_sequence_length-1))
model.add(LSTM(100))
model.add(Dense(total_words, activation='softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# 训练模型
model.fit(X, y, epochs=50, verbose=1)

# 生成文本
。。。完整版详见仓库

在问题三中，我们需要建立一个模型来评估AI生成文本的质量，包括语义一致性、逻辑连贯性、创造性等方面。为了实现这个目标，我们可以使用预训练的语言模型BERT，来对生成的文本进行评估。具体解答过程如下：

1. 数据准备:

- 获取一组包含AI生成文本和相应真实文本的数据集。

2. 特征提取:

- 使用预训练的语言模型（例如BERT）来提取文本特征。这些特征可以包括词嵌入、句子嵌入等。

3. 构建评估模型:

- 使用提取的文本特征，构建一个评估模型。可以选择一个二元分类模型，用于区分AI生成的文本和真实文本的质量。

4. 模型训练:

- 使用带有标签的训练集，对评估模型进行训练。标签可以是0（低质量）或1（高质量）。

5. 模型评估:

- 使用测试集对模型进行评估，并计算准确率、精确度、召回率等指标。

6. 结果分析与改进:

- 分析模型的输出，查看模型在哪些方面出现错误。

- 根据分析结果改进模型，可能需要调整模型结构、超参数或优化算法。

使用BERT建模的过程如下：

在使用BERT进行质量评估的建模过程中，我们首先需要使用BERT模型对文本进行特征提取，然后构建一个评估模型来判断文本的质量。以下是详细的建模和解答过程：

1. 数据准备:

- 获取一组包含AI生成文本和相应真实文本的数据集。

- 给定每个样本一个标签，标记为0表示AI生成文本，标记为1表示真实文本。

2. 特征提取:

- 使用BERT模型对文本进行特征提取。我们可以使用Hugging Face的`transformers`库中的预训练BERT模型。

3. 构建评估模型:

- 使用提取的BERT特征，构建一个评估模型。这可以是一个简单的二元分类模型，例如Logistic Regression。

示例代码如下：

from transformers import BertTokenizer, BertForSequenceClassification
from torch.utils.data import DataLoader, TensorDataset
import torch
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 示例数据
generated_texts = ["AI-generated text 1", "AI-generated text 2", ...]
real_texts = ["Real text 1", "Real text 2", ...]
labels = [0, 0, ..., 1, 1, ...]  # 0表示AI生成的文本，1表示真实文本

# 使用BERT tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# 处理数据
tokenized_texts = tokenizer(generated_texts + real_texts, padding=True, truncation=True, return_tensors="pt")
labels = torch.tensor(labels)

# 划分训练集和测试集
train_inputs, test_inputs, train_labels, test_labels = train_test_split(tokenized_texts, labels, test_size=0.2, random_state=42)

# 构建数据加载器
train_dataset = TensorDataset(train_inputs['input_ids'], train_inputs['attention_mask'], train_labels)
test_dataset = TensorDataset(test_inputs['input_ids'], test_inputs['attention_mask'], test_labels)

train_dataloader = DataLoader(train_dataset, batch_size=8, shuffle=True)
test_dataloader = DataLoader(test_dataset, batch_size=8, shuffle=False)

# 使用BERT进行分类
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)
optimizer = torch.optim.AdamW(model.parameters(), lr=2e-5)

# 训练模型
num_epochs = 3
for epoch in range(num_epochs):
    model.train()
    for batch in train_dataloader:
        input_ids, attention_mask, labels = batch
        optimizer.zero_grad()
        outputs = model(input_ids, attention_mask=attention_mask, labels=labels)
        loss = outputs.loss
        loss.backward()
        optimizer.step()

# 评估模型
model.eval()
predictions = []
with torch.no_grad():
    for batch in test_dataloader:
        input_ids, attention_mask, labels = batch
        outputs = model(input_ids, attention_mask=attention_mask)
        logits = outputs.logits
        predictions.extend(logits.argmax(dim=1).cpu().numpy())

# 计算准确率
accuracy = accuracy_score(test_labels.numpy(), predictions)
print(f'Accuracy: {accuracy}')

大家可以查看我的个人简介并关注我们团队~里面有全部题目的详细解答过程！

或者查看完整版：2023年第九届“数维杯”国际大学生数学建模挑战赛全题目解析+思路+代码实现+论文指导

Unicorn建模

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
2023年第九届“数维杯”国际大学生数学建模挑战赛C题详细解析（LSTM + BERT + Siamese Network）

在问题三中，我们需要建立一个模型来评估AI生成文本的质量，包括语义一致性、逻辑连贯性、创造性等方面。为了实现这个目标，我们可以使用预训练的语言模型BERT，来对生成的文本进行评估。在使用BERT进行质量评估的建模过程中，我们首先需要使用BERT模型对文本进行特征提取，然后构建一个评估模型来判断文本的质量。类似问题二，在附录III中的十篇文章中基于语言、翻译、生成频率以及字数限制等因素评估AI生成的段落。- 调整LSTM模型的超参数，包括学习率、批大小、LSTM层的数量和单元数等，以提高模型性能。
复制链接

扫一扫