大模型数据采集和预处理:把所有数据格式,word、excel、ppt、jpg、pdf、表格等转为数据

大模型数据采集和预处理:把所有数据格式,word、excel、ppt、jpg、pdf、表格等转为数据
    • 文本/图片/表格,分别提取处理
    • 工具选择
    • 不同格式文件,使用不同工具处理
      • 1. 确认目标
      • 2. 分析过程(目标-手段分析法)
      • 3. 实现步骤
      • 4. 代码封装
      • 效果展示
      • 金手指
    • 训练 OCR,提升识别准确率

数据采集和预处理:文档格式统一化、图表数据结构化、文本化处理。


文本/图片/表格,分别提取处理

在这里插入图片描述
核心做法

  1. 将 Word / PPT / PDF 等不同类型的文档,统一转成 HTML 或者 Markdown 格式。
  2. 基于统一后的格式,从文档中分离出 文本内容图片(含图表截图)表格
  3. 对拆分出来的图片和表格做进一步的 OCR / 表格解析等处理,将其转换为文本(或结构化数据),最后与原有的文本合并或建立关联。

优点

  1. 保留文档内容结构:因为先转为 HTML 或 Markdown,可以较好地保留文档的层级结构、段落、样式等。
  2. 灵活处理:可以针对文字、图片、表格分别采取适合的处理方式。例如:
    • 文本直接拿来做 NLP 预处理;
    • 图片和图表用专门的 OCR 或结构化表格提取工具。
  3. 精细度较高:文字和图表一分为二,可以更精细地进行后续处理,便于标注、检索或微调(Finetune / RAG)。

缺点

  1. 开发成本相对较高:要编写或调用各种解析、转换脚本(doc -> html,pdf -> html 等),还要对拆出来的图片、表格做分别提取。
  2. 依赖工具链:对于 PPT 等复杂文档,直接转 HTML/Markdown 可能并非一帆风顺,需依赖商业或开源工具,可能会遇到兼容性问题。
  3. 图片+表格的后处理:对图表进行 OCR 或表格解析,需要依赖额外的处理模块,处理效果也取决于 OCR / 表格解析工具的准确率。

适用场景

  • 需要保留文档原有的层级结构、目录、章节等信息,并对文本和图表进行精细化处理的场景。
  • 数据源多样(Word、PPT、PDF、扫描件),且对最终提取精度要求较高。
  • 团队可以投入一些时间精力,编写、整合比较完整的抽取工具链。

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

工具选择

链接:https://lightpdf.cn/api-pricing

如果数量不大,一个月会员 30 块就够了。

如果很大,就需要 API,89 块可以识别 500 张图。

识别效果,还可以,有格式保留:

在这里插入图片描述
识别后:

一、最常用的快捷键:
F5刷新	DELETE射除	TAB改变焦点
CTRL.C复制	CTRL+X剪切	CTRL+V粘贴
CTRL"全选	CTRL+Z撤精	CTRL+S 碗
ALT+F4关闭	CTRL+Y恢复	ALT+TAB 切换
CTRL+F5强制刷新	CTRL+W关闭	CTRL+F杳找
SHIFT+DELETE永久剧除	CTRL+ALT+DEL任务管理	SHIFT+TAB反向切换
CTRL♦空格中英文*!入切换	CTRL+Shrtt输入法切换	CTRL+ESC开始菜单
CTRL.ALT.ZQQ快速提取 消息	CTRL+ALT+AQQ破图工具	CTRL+ENTERQQ 发消息
【窗口】+D显示桌面	【限口】+R打开“运行	r窗口】+L解暮候定
[«11] *E打开“我的电脑”	【窗口】+F搜索文件或文件 夹	[«□] “AB项H切换
cmd…(MD命令提示符

也可以自己部署 Github 的开源项目:

我发现这个 Unstructured 开源项目,准确率比 付费 OCR 还要高。

Unstructured-IO:

  1. 更像是一个文档处理的全功能工具箱:
    • 可以处理多种格式文档(PDF、Word、Excel、HTML等)
    • 内部集成了多种处理能力(包括但不限于OCR)
    • 提供统一的API接口
  2. 主要优势是:
    • 部署简单(Docker一键部署)
    • API调用方便
    • 处理格式全面
  3. 适用场景:
    • 企业内部搭建统一的文档处理服务
    • 需要处理多种格式混合的场景
    • 对部署和维护要求不高的场景

不同格式文件,使用不同工具处理

1. 确认目标

主要目标:如何将不同格式的企业文档(Word/Excel/PPT等)高效转换为适用于RAG或模型微调的结构化数据集?

2. 分析过程(目标-手段分析法)
  1. 如何处理多种格式文档?
    • 问题:如何统一处理不同格式的文件?

    • 解决手段:使用智能分类系统,自动识别文件类型并选择相应处理流程

    • 具体实现:

# 文件处理配置参数
parsing_output = my_lib.add_files(
    temp_dir,                   # 临时目录路径,存放待处理的文件
    chunk_size=400,             # 文本块的目标大小(tokens),用于分割长文本
    max_chunk_size=600,         # 文本块的最大大小限制,防止块过大
    smart_chunking=1,           # 启用智能分块,会在自然断句处分割文本
    get_tables=True,            # 是否提取文档中的表格
    get_images=True             # 是否提取文档中的图片
)

对提取的内容(包括文本、表格、图像)及其元数据进行整合,生成一个结构化的 JSON 格式。这个 JSON 文件包含了诸如文本内容、文档源、创建日期、修改日期等信息。

该 JSON 格式可以存储丰富的文档信息,便于后续的检索和生成任务。

  1. 如何处理文档中的不同类型内容?
    • 问题:如何提取和处理文本、表格、图片等不同内容?
    • 解决手段:
      • 文本:智能分块(400-600 tokens)
      • 表格:转换为CSV格式
      • 图片:使用OCR技术提取文本
    • 具体实现:
文档格式分类:

文本(如 Word):直接提取文本内容。
表格(如 Excel):提取表格数据并存储为 CSV 格式。
图像(如 PPT):使用 OCR(光学字符识别)提取图像中的文本。

文档的处理方式根据内容类型分类,文本部分直接提取,表格部分转换为 CSV 格式,图像部分使用 OCR 技术提取文本。

对文本进行智能化分块,以便适应模型的输入限制。例如,将每个块限制为 400-600 个 tokens。

# 表格处理
extracted_tables = Query(lib).export_all_tables(output_fp=lib.output_path)
     
# OCR处理
lib.run_ocr_on_images(add_to_library=True, chunk_size=400, min_size=10)

OCR 用于从图片中提取文本。在处理图像时,会设置一些参数,例如:最小尺寸、实时进度显示等,以确保 OCR 过程的高效性和精度。

  1. 如何保证数据的结构化和关联性?
    • 问题:如何将不同来源的内容整合为统一格式?
    • 解决手段:使用JSON格式存储,包含完整元数据
    • 具体实现:
# JSON输出数据结构
{
    "block_ID": 0,                    // 文本块唯一ID  
    "doc_ID": 1,                      // 文档ID
    "content_type": "text",           // 内容类型
    "file_type": "docx",             // 文件类型
    "text_search": "实际文本内容...",  // 文本内容
    "external_files": "",            // 关联文件
    "header_text": "",               // 标题文本
    "modified_date": "",             // 修改日期
    "created_date": ""               // 创建日期
}

  1. 如何准备训练数据集?
    • 问题:如何将处理后的数据转换为训练集?
    • 解决手段:自动分割训练/测试/验证集
    • 具体实现:
ds = Datasets(
   library=lib,                   # 输入的文档库实例,包含所有处理后的文档数据
   testing_split=0.10,            # 测试集占比10%,用于评估模型性能
   validation_split=0.10,         # 验证集占比10%,用于模型调优,防止过拟合
   ds_id_mode="random_number"     # 使用随机数作为数据集样本ID的生成方式
)

3. 实现步骤
  1. 环境准备:

    • Python 3.10
    • conda环境
    • 必要依赖安装
  2. 数据处理流程:

    • 文档解压与预处理
    • 内容智能分类
    • 分类处理(文本/表格/图片)
    • JSON格式整合
    • 数据集生成
  3. 数据集创建:

    • 设置分割比例(80/10/10)
    • 设置token限制(100-500)
    • 生成最终数据集
4. 代码封装
效果展示
  • 输入:各种格式的企业文档(Word/Excel/PPT)
  • 过程:自动化处理流程,无需人工干预
  • 方法:智能分类 + 专项处理 + 数据整合
  • 结果:结构化的JSON格式数据集
  • 数字:
    • 文本块大小:400-600 tokens
    • 训练集分割:80/10/10
    • 最小token数:100
    • 最大token数:500
金手指

这个系统的金手指是"智能化处理机制":

  1. 智能分类:自动识别文档类型和内容类型
  2. 专门处理:针对不同类型内容使用最适合的处理方法
  3. 统一输出:所有处理结果都转换为统一的JSON格式

应用案例:

  1. 企业财报自动化处理
  2. 产品文档库建设
  3. 技术文档管理系统
  4. 企业知识库建设
  5. 多语言文档处理

这个框架可以帮助任何需要将非结构化文档转换为结构化数据的场景,特别适合企业级应用。


训练 OCR,提升识别准确率

如果是特殊的医疗表格、艺术字体、手写公式,基本上要自己 OCR 模型(YOLOX)训练。


在大模型时代,我们如何有效的去学习大模型?

现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性

• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;

• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;

• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术,也_想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把都打包整理好,希望能够真正帮助到大家_。

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,下面是我整理好的一套完整的学习路线,希望能够帮助到你们学习AI大模型。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

三、AI大模型经典PDF书籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

四、AI大模型各大场景实战案例

在这里插入图片描述

结语

【一一AGI大模型学习 所有资源获取处(无偿领取)一一】
所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

### 回答1: 抱歉,作为一名语言模型,我无法绘制图像。但我可以为你描述一个简单的网络拓扑图,它可能类似于这样: 在中心,有一个圆形的节点,代表服务器或路由器。从该节点向外伸出几条线,每条线代表一个网络连接。每个连接的末端可能是另一个圆形节点,也可能是一个小圆点,代表计算机或其他设备。 在实际的网络拓扑图中,可能还会有更多的节点、连接子网。但是这个简单的示例应该足以帮助你理解网络拓扑的基本概念。 ### 回答2: 网络拓扑图是一种用图形表示网络结构的工具。它展示了网络中各个节点它们之间的连接关系。一个简单的网络拓扑图可以如下所示: 在这张图中,我们有四个节点,分别用A、B、C、D表示。这四个节点可以代表计算机、服务器或其他网络设备。这些节点之间的连接关系是通过连线表示的,箭头表示了连接的方向。 在这个例子中,A节点连接到BC节点,B节点连接到CD节点,C节点连接到D节点。这种连接方式可以是有线连接,比如以太网线,或者是无线连接,比如Wi-Fi。 这个简单的网络拓扑图展示了一个典型的星型拓扑结构,其中A节点是中心节点,其他节点都与它相连。这种拓扑结构通常用于小型网络,例如家庭网络或办公室网络。 通过网络拓扑图,我们可以清楚地看到网络中各个节点之间的连接关系,帮助我们理解管理网络。此外,它还能够帮助我们确定网络中的瓶颈故障点,以便更好地优化网络性能或解决问题。 总之,网络拓扑图是一种简单而重要的工具,可以帮助我们理解管理网络。它可以根据实际情况进行扩展调整,以适应更复杂的网络结构。 ### 回答3: 网络拓扑图是用于描述计算机网络中各个设备之间连接关系的图形化表示。以下是一个简单的网络拓扑图的描述: 这个网络拓扑图描述了一个小型办公室网络,其中有5台设备,包括1台路由器、2台台式电脑、1台打印机1台无线接入点。所有设备都通过以太网连接。 在图的左侧,有一台标有“路由器”的设备,它有多个以太网接口,用于与其他设备连接。从路由器分别连接到两台台式电脑无线接入点。无线接入点放置在办公室中心,它通过无线信号与其他无线设备通信。 两台台式电脑位于网络中间部分,它们分别通过以太网电缆与路由器相连。这些电脑可以通过路由器互相通信,并与其他设备进行数据交换。 在图的右侧,有一台打印机,它通过以太网连接到路由器。这将使所有网络中的设备都能够与打印机进行通信共享打印资源。 整个网络拓扑图简单明了,清晰地展示了设备之间的连接关系。它可以帮助人们更好地理解网络结构,诊断解决网络问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值