非结构化文本解决方案打标签

最近领导让我们把自己公司内部的知识库平台里面的方案进行打标

材料类型:80%为ppt、word

材料概述:产品、方案、案例(偏售前的方案)

一、PPT:我自己是没有什么更好的方案做打标工作,应该会用到图像算法之类的,我现在的水平解决不了,只能用微信截图识别文本复制粘贴,顶多用GPT帮我处理一下文本格式

二、WORD:word如果用了结构分明的heading格式做目录,那么将会非常好处理。由于文档是只读格式,所以纯纯用word转化为excel是可以通过wps或者office做到,但是对于目录格式有限制,但是由于我没有编辑权限所以采用了python脚本处理

预期效果:提取目录文本为结构化数据,且heading1在表格的第一列,heading2为表格的第二列,依次排布且行之间要有对应关系。

使用脚本:

import pandas as pd
from docx import Document

def read_toc(doc_path):
    doc = Document(doc_path)
    toc = []

    for paragraph in doc.paragraphs:
        if paragraph.style.name.startswith('Heading'):
            level = int(paragraph.style.name.split(' ')[-1])
            text = paragraph.text
            toc.append((level, text))

    return toc

def toc_to_excel(toc, excel_path):
    max_level = max(level for level, _ in toc)
    data = {f'Title_{i+1}': [] for i in range(max_level)}

    current_row = {f'Title_{i+1}': '' for i in range(max_level)}

    for level, text in toc:
        current_row[f'Title_{level}'] = text
        for i in range(level + 1, max_level + 1):
            current_row[f'Title_{i}'] = ''

        data = {key: data[key] + [current_row[key]] for key in data}

    df = pd.DataFrame(data)
    df.to_excel(excel_path, index=False)


# 使用示例
doc_path =r'C:\Users\xxx\Downloads\xxxxx.docx'
excel_path = 'output_excel_file.xlsx'
toc = read_toc(doc_path)
toc_to_excel(toc, excel_path)

处理结果:

复制粘贴问题解决~ 

代码解释:

这段代码的目标是读取一个 Word 文档中的标题,根据标题的层级将其放入 Excel 表格的不同列中,并保存为一个 Excel 文件。

具体步骤如下:

  1. read_toc 函数:

    • 该函数接收一个 Word 文档的路径 doc_path 作为输入。
    • 使用 docx 库的 Document 类来打开 Word 文档。
    • 遍历文档中的每个段落,检查段落的样式是否以 'Heading' 开头,如果是则提取出标题的层级和文本内容,并将它们作为元组 (level, text) 添加到列表 toc 中。
    • 返回包含标题信息的 toc 列表。
  2. toc_to_excel 函数:

    • 该函数接收标题信息列表 toc 和 Excel 文件路径 excel_path 作为输入。
    • 计算出标题的最大层级 max_level
    • 初始化两个字典 datacurrent_row,它们用于存储数据和当前行的标题信息。
    • 遍历 toc 中的每个标题信息,更新 current_row 中对应层级的标题,并将数据添加到 data 中。
    • 创建一个 DataFrame df,其中每个列的标题都以 'Title_' 开头,并将数据保存为 Excel 文件。
  3. 使用示例:

    • 提供了一个具体的 Word 文档路径 doc_path 和保存 Excel 文件的路径 excel_path
    • 调用 read_toc 函数读取标题信息,并将其传递给 toc_to_excel 函数,生成 Excel 文件。

在使用时,你需要将 doc_path 替换为你的实际 Word 文档路径,然后运行脚本。生成的 Excel 文件将包含每个层级的标题,并且每个层级的标题都会在 Excel 表格的相应列中。

  • 9
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
在企业智能助理领域的代际更迭中,吾来占据了领先的技术优势 关键词 模板匹配 搜索 神经网络 关键词匹配 模糊 查询 自然语言处理 深度 学习 机器人效率 上线时间 基于规则的传统问答模型 吾来基于深度学习的问答模型 随着模型上线时间的增加,基于深度学习的专业问答模型带来的效率提升将远远超过基于规则的问答模型 吾来 真正意义上的深度学习,领先的NLP技术 标杆客户认可,十亿级语料挖掘经验 亿级自平台交互验证,领域AI准确率逾98% 专业AI训练师辅助,确保模型高准确率 智能对话式运营解决方案全文共14页,当前为第1页。 吾来的解决方案模块及功能 APP 微信个人号 微信公众号 微信群 更多 网站评论区 用户 2大模块 8大功能 多渠道 人机协作 专业人士 对话式运营 机器人平台 信息沉淀 实时质检 社群管理 潜客分析 舆情监控 智能推荐 自动问答 任务对话 赋能 小程序 智能对话式运营解决方案全文共14页,当前为第2页。 企业客户普遍存在如下痛点 获客 拉新成本高 激活 迎新效果差 留存 用户迁移频繁 变现 客单价提升慢 推荐 口碑难建 1. 互动式内容 追踪高频热点,把握用户心理, 互动内容拉新,提高获客效率 助理式主动交互,多轮对话控制, 社群管理,提高用户黏性 用户智能标签,多种表达完成下单, 个性推荐,实现增销及交叉销售 及时响应,精准回复, 提升用户满意度与品牌形象 吾来价值 痛点 吾来解决方案 4. 迎新线索生成 6. 交互下单 2. 商业洞察 5. 个人号及社群运营 3. 多触点经营 8. 智能客服 7. 智能分组推送及 个性推荐 富媒体回复,个性交互激活,用户触点前置,提高注册激活率 9. 行政助手 智能对话式运营解决方案全文共14页,当前为第3页。 合作案例:惠氏奶粉 获客 激活 留存 变现 推荐 营销及获客成本越来越高 >1000元 迎新效果差,新客活跃度及注册率低 10-30% 用户迁移很频繁,月留存率低 50-60% 销售转率低,增效和交叉销售更难 <20% 难以通过口碑传播,耗费数千万费用 ~0% 借助用户及热点洞察产出优质营销内容 精准的时间和场景触达用户 通过定制的标签体系,以交互和个性迎新来促进注册和激活 用户画像和个性知识交互来维持用户粘性,提升用户生命周期价值 智能交互,及时响应复杂的知识问答咨询 通过用户画像和语义分析来实现增销和交叉营销 情感的交互来处理庞大的客服需求,提升用户满意度 提供丰富的会员权益福利 客户痛点 案例背景 方案效果 微信社群 4000+微信群,覆盖超过100万孕妇及产妇妈妈 目前通过300名真人助理,提供群内问答、直播等服务 微信服务号 超过1000万精准的母婴粉丝群体 30多位妈妈助手24X7全天候提供营养健康咨询服务 知识库 基于深度神经网络挖掘近5000条知识点,实现知识库问答准确率95% 问答模型 提供多轮交互的问答模型,智能机器人推荐准确率超过95%,提升人工服务效率超过50% 商业智能 通过对结构的交互语料及文本进行深度学习,产出热点追踪,舆情分析报告,服务市场营销决策 智能分组 基于用户交互信息,建立结构标签体系,配合交易数据形成用户画像,助力精准营销 智能对话式运营解决方案全文共14页,当前为第4页。 1. 互动式内容 解决方案 通过智能对话机器人即时与用户进行趣味交互,提高迎新流程的创意与效率 多媒体交互,根据用户特点个性推送海报,营造朋友圈话题,促进粉丝裂变 图为吾来微信公众号自身搭载的趣味互动测试机器人,该机器人与粉丝互动后将推送相应的海报,鼓励传播与二次传播。该机器人首次上线的4小时内,吾来微信公众号关注用户数增长1倍,上线24小时内关注用户数增长超2倍,上线首周活跃用户数与上线前相比增长近60倍。 实现价值 用户关注度与迎新效率 用户活跃度 智慧营销 智能对话式运营解决方案全文共14页,当前为第5页。 2. 商业洞察 解决方案 支持交互信息沉淀,通过活跃度分析可精细地运营用户,便于提高长期用户黏性,挖掘增销、裂变机会 通过关键词词频、品牌声量、常用知识点、群内词云等分析工具,发现用户关注热点,把握品牌推广机会,辅助经营决策 上图为吾来为惠氏奶粉制作的BI报表界面 实现价值 经营决策效率 品牌声量 高频关键词排名 常用知识点统计 声量追踪 关键词搜索 商业洞察 上图为吾来某客户微信群内信息沉淀得出的词云分析结果 群内词云分析 智能对话式运营解决方案全文共14页,当前为第6页。 3. 多触点经营 解决方案 利用AI技术进行知识挖掘,缩小信息颗粒度,为企业的精细服务及推荐提供内容基础,满足用户差异需求,优运营效果 通过增加游中与用户的接触点,实现精准运营,提高用户活跃度,创造额外收入 图为吾来为马蜂窝创建的厦门旅行问答
### 回答1: 在使用Python的xgboost库对多文本输入进行单输出时,需要对输入的文本进行预处理和转换。首先,要将文本数据转换成向量形式,具体可以使用词袋模型等技术。其次,为每一个文本准备一个标签,作为监督学习的输出。接着,可以使用xgboost提供的多分类器或回归器模型进行训练和预测。 对于多文本输入,可以将每一个文本转换成一个向量,然后将这些向量组成矩阵输入模型中。在xgboost中,可以使用DMatrix对象来存储和处理数据。对于单输出,可以使用xgboost提供的Regressor或Classifier类进行训练和预测。针对不同类型的输出,可以选择相应的模型进行处理,如分类问题选择Classifier,回归问题选择Regressor。 关于xgboost的模型调参,可以通过调整参数来提高训练结果的准确性和效率,具体可以参考官方文档。此外,在使用xgboost进行多文本输入单输出时,需要注意模型的优和结果的评估,对于问题的复杂性和数据量的大小也需要进行合理的选择和处理。 ### 回答2: Python XGBoost是一种常用的机器学习框架,可以用于多文本输入单输出的任务。多文本输入单输出通常指文本分类和文本回归问题。在文本分类问题中,输入是多个文本数据,输出是对每个文本的分类标签。在文本回归问题中,输入是多个文本数据,输出是对每个文本的数值预测。这两种问题都可以用Python XGBoost来解决。 首先,需要将多个文本数据转为数值向量,以便应用于机器学习算法中。常用的文本向量方法包括词袋模型、TF-IDF模型和词向量模型等。可以使用Python中的sklearn库来实现文本向量过程。然后,将文本向量作为XGBoost模型的输入数据,将文本分类或回归结果作为输出数据。 在XGBoost模型的训练过程中,可以调整超参数来优模型的预测性能。常用的超参数包括树的深度、树的数量、学习率等。可以使用交叉验证来评估模型的预测性能,并选择最优的超参数组合。最后,使用训练好的XGBoost模型来对新的文本数据进行分类或回归预测。 总体来说,使用Python XGBoost解决文本输入单输出问题的关键在于文本向量和超参数调整。通过不断的优文本向量方法和调整超参数组合,可以得到更准确、更稳定的预测结果。 ### 回答3: Python xgboost可以实现多文本输入单输出的机器学习模型。在多文本输入的情况下,需要首先进行文本预处理和特征提取,可以使用自然语言处理技术,如分词、词频统计等方法将文本为向量形式。接着,可以使用xgboost模型进行训练和预测,将多个文本向量作为特征输入,待预测的结果作为输出。 对于多文本输入单输出的情况,xgboost可以采用多个决策树模型整合多个文本特征,通过集成学习的方式提升模型的性能。其中,每个决策树提取的特征和结构都不同,通过xgboost的优方法融合在一起,实现高效的训练和预测。 需要注意的是,多文本输入单输出的机器学习模型需要考虑多个文本之间的相关性。此时可以使用文本嵌入技术,将多个文本表示为一个向量,从而引入了多个文本之间的相似度指标,提高了模型的表现。此外,模型训练过程中需要进行参数调优和交叉验证,以提高模型的准确性和泛能力。 总之,Python xgboost可以应用于多文本输入单输出的机器学习问题,需要考虑多个文本之间的相关性,并通过优和调优的方法提高模型的性能和精度。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值