文本聚类与摘要，让AI帮你做个总结

最新推荐文章于 2024-09-16 21:50:22 发布

小极客geekbang

最新推荐文章于 2024-09-16 21:50:22 发布

阅读量534

点赞数

文章标签：程序员后端算法 Java Go 计算机基础容器大数据

本文链接：https://blog.csdn.net/m0_68101999/article/details/130224029

版权

本文介绍了如何利用Embedding进行文本聚类，通过K-Means算法在20 newsgroups数据集上进行实验，展示效果。此外，还探讨了如何使用提示语对文本进行总结，借助OpenAI的Completion接口为聚类结果命名，并利用文本摘要支持无限轮数的聊天。通过这些方法，AI能更好地处理和理解上下文。

摘要由CSDN通过智能技术生成

你好，我是徐文浩。

上一讲里，我们用上了最新的ChatGPT的API，注册好了HuggingFace的账号，也把我们的聊天机器人部署了出去。希望通过这个过程，你对实际的应用开发过程已经有了充足的体验。那么这一讲里，我们会回到OpenAI的各个接口能够提供的能力。我们分别看看怎么通过Embedding进行文本聚类，怎么利用提示语（Prompt）做文本的总结。

基于Embedding向量进行文本聚类

我先给不太了解技术的同学简单科普一下什么叫做文本聚类，文本聚类就是把很多没有标注过的文本，根据它们之间的相似度，自动地分成几类。基于GPT系列的模型进行文本聚类很简单，因为我们可以通过Embedding把文本变成一段向量。而对于向量我们自然可以用一些简单的聚类算法，比如我们采用最简单的K-Means算法就可以了。

这一次，我们选用的数据集，是很多老的机器学习教程里常用的20 newsgroups数据集，也就是一个带了标注分好类的英文新闻组的数据集。这个数据集，其实不是最自然的自然语言，里面的数据是经过了预处理的，比如去除了标点符号、停用词等等。我们正好可以拿来看看，面对这样其实不太“自然语言”的数据，OpenAI的GPT系列模型处理的效果怎么样。

首先，我们先通过scikit-learn这个Python库来拿到数据，数据集就内置在这个库里面。scikit-learn也是非常常用的一个机器学习库，我们直接把数据下载下来，存储成CSV文件。对应的代码在下面可以看到。

from sklearn.datasets import fetch_20newsgroups
import pandas as pd

def twenty_newsgroup_to_csv():
    newsgroups_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'))

    df = pd.DataFrame([newsgroups_train.data, newsgroups_train.target.tolist()]).T
    df.columns = ['text', 'target']

    targets = pd.DataFrame( newsgroups_train.target_names, columns=['title'])

    out = pd.merge(df, targets, left_on='target', right_index=True)
    out.to_csv('20_newsgroup.csv', index=False)

twenty_newsgroup_to_csv()

接着，我们要对数据做预处理，我们需要过滤掉数据里面有些文本是空的情况。以及和我们前面进行文本分类一样，把Token数量太多的给过滤掉。

from openai.embeddings_utils import get_embeddings
import openai, os, tiktoken, backoff

openai.api_key = os.environ.get("OPENAI_API_KEY")
embedding_model = "text-embedding-ada-002"
embedding_encoding = "cl100k_base"  # this the encoding for text-embedding-ada-002
batch_size = 2000
max_tokens = 8000  # the maximum for text-embedding-ada-002 is 8191

df = pd.read_csv('20_newsgroup.csv')
print("Number of rows before null filtering:", len(df))
df = df[df['text'].isnull() == False]
encoding = tiktoken.get_encoding(embedding_encoding)

df["n_tokens"] = df.text.apply(lambda x: len(encoding.encode(x)))
print("Number of rows before token number filtering:", len(df))
df = df[df.n_tokens <= max_tokens]
print("Number of rows data used:", len(df))

输出结果：

Number of rows before null filtering: 11314
Number of rows before token number filtering: 11096
Number of rows data used: 11044

然后，我们仍然是通过Embedding的接口，拿到文本的Embedding向量，然后把整个数据存储成parquet文件。

@backoff.on_exception(backoff.expo, openai.error.RateLimitError)
def get_embeddings_with_backoff(prompts, engine):
    embeddings = []
    for i in range(0, len(prompts), batch_size):
        batch = prompts[i:i+batch_size]
        embeddings += get_embeddings(list_of_text=batch, engine=engine)
    return embeddings

prompts = df.text.tolist()
prompt_batches = [prompts[i:i+batch_size] for i in range(0, len(prompts), batch_size)]

embeddings = []
for batch in prompt_batches:
    batch_embeddings = get_embeddings_with_backoff(prompts=batch, engine=embedding_model)
    embeddings += batch_embeddings

df["embedding"] = embeddings
df.to_parquet("data/20_newsgroup_with_embedding.parquet", index=False)

这一部分代码基本和前面我们做文本分类一样，我就不再做详细讲解了。不理解代码为什么要这么写的同学