python 代码openAI 嵌入模型通用数据加工

这篇博客介绍了如何基于微软API的例子,使用Python处理Chat模型的文字限制问题。通过Embedding模式,虽然成本较高,但可以将大量文本转化为CSV格式,作为输入数据。注意,对于大文件操作要谨慎,因为可能产生高昂费用。
摘要由CSDN通过智能技术生成

根据微软的API例子修改的,可以解决chat model 下文字的限制,用 Embedding模式,但是太烧钱了,按照收费标准,5000字估计1美元的样子,千万别轻易尝试大文件!先生成.csv,然后直接用这个csv做输入的信息(按道理要用矢量数据库,但例子就是这样给的。)

# coding:utf-8
# imports
import typing

import mwclient  # for downloading example Wikipedia articles
import mwparserfromhell  # for splitting Wikipedia articles into sections
import openai  # for generating embeddings
import pandas as pd  # for DataFrames to store article sections and embeddings
import re  # for cutting <ref> links out of Wikipedia articles
import tiktoken  # for counting tokens
from Tools.scripts.dutree import display
# get Wikipedia pages about the 2022 Winter Olympics
from docx import Document
from typing import Tuple, List, Any

doc = Document(r"data/m.docx")

wikipedia_sections: List[Any] = []
for para in doc.paragraphs:
    title = para.text.strip()
    if title != "" and 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值