【RAG效果提升】大模型RAG 长文本图像分类 文本分类 舆情分析 内容审核

网上有很多rag优化技巧、大模型提示词技巧、分类审核技巧和实践,写的都非常详细,今天我介绍自己发现的一个小技巧。

这个技巧之前没怎么见别人提过,之前做类似多分类、细节挖掘、文本审核的时候也没想到,简单利用glm-flash和glm-long试验了一下,发现效果还可以。

问题

大模型在长下文时,会有一定的概率犯错。当我有一段【原文】,需要利用80条【规则】去对【原文】进行分类或审核,当【规则】或【原文】较长时,模型容易出现遗忘或漏识别,例如我故意在【原文】中加入一段不符合【规则】的文本,模型可能会忽略这段文本。

解决

尽管很多模型引入了各种长上下文、注意力机制等等,大海捞针仍然是困难的,即便这个大海只有两千字。

最好的解决办法,就是把内容变得更细,让模型去逐段阅读。你甚至可以针对每一段原文发起一次提问。

在分类任务下,假设【规则】有2个大主要规则,每个主要规则下又分为5条细节规则,【原文】代表需要进行分类的文本,我的解决办法是:

【任务】:请根据【分类规则】对【原文】进行分类,原文可能属于多个分类

【原文】:xxxxxx
【主体规则1】:yyyyyy
           -细节规则1:zzzzz
           -细节规则2:zzzzz
           -细节规则3:zzzzz
           -细节规则4:zzzzz
           -细节规则5:zzzzz
           
【原文】:xxxxxx
【主体规则2】:yyyyyy
           -细节规则6:zzzzz
           -细节规则7:zzzzz
           -细节规则8:zzzzz
           -细节规则9:zzzzz          
           -细节规则10:zzzzz

只需要把原文多重复几遍即可。这样做有两个好处:

  1. 把原文拆的更细,每个拆分段落重新提问,有助于模型更细致的观察原文
  2. 可以把规则描述写得更详细一些,便于模型记住更细致的规则

效果

在原文长规则短、原文短规则长的两种情况下,利用glm4测试,都能收到一定效果。

场景1 图像分类

假设我有图像描述(即原文),需要将其多分类,分类规则有50条左右:

【任务】:请判断 **图像描述**所属的大场景和细分场景,可以是多个分类,说出大场景和细分场景。

【图像描述】
- 图中显示三名穿着橙色工作服的工人,他们正在一个较深的土坑内进行作业。
- 工人们佩戴安全帽和安全带,并使用绳索进行固定。他们在对一个固定在墙壁上的电力表箱进行读数、记录和验电操作。
- 他们似乎在进行某种高空作业,因为他们的身体悬在空中。
- 较深的土坑的边缘看起来比较粗糙,可能是混凝土或其他硬质材料制成。

【大场景和细分场景】
大场景1**变电-室内**:xxxxx
--一般作业:xxxxx
--带电作业:xxxxx。
--地下通道作业:xxxx。

大场景2**变电-室外**:xxxxx
--一般作业:xxxxx
--带电作业:xxxxx
--巡视维护:xxxxx
--箱体作业:xxxxx

(接下来的四十条规则直接进行简单罗列,不再重复)

此时,模型得到的最终答案如下,缺少了一个非常重要的分类,那就是高处作业(可以看图像描述的第三句“他们似乎在进行某种高空作业,因为他们的身体悬在空中。”)。

综上所述,图像描述的场景可以归类为以下大场景和细分场景:

大场景1:变电-室外(箱体作业)
大场景3:配电-地面(箱体类设备)
大场景7:土建(深坑)

当我重复调节了不同的参数、或更换了更强的glm4-plus模型后,模型仍然有可能出现问题(例如遗漏了箱体作业,或者没有回答出高处作业),说明提示词确实有问题。

当我把提示词改成这样:

**任务**:请判断 **图像描述**所属的**大场景****细分场景**,可以是多个大场景。

【图像描述】
- 图中显示三名穿着橙色工作服的工人,他们正在一个较深的土坑内进行作业。
- 工人们佩戴安全帽和安全带,并使用绳索进行固定。他们在对一个固定在墙壁上的电力表箱进行读数、记录和验电操作。
- 他们似乎在进行某种高空作业,因为他们的身体悬在空中。
- 较深的土坑的边缘看起来比较粗糙,可能是混凝土或其他硬质材料制成。

【大场景和细分场景】
大场景1**变电-室内**:xxx
--一般作业:xxx
--带电作业:xxx
--地下通道作业:xxx

大场景2**变电-室外**:xxx
--一般作业:xxx
--带电作业:xxx
--巡视维护:xxx
--箱体作业:xxx

【图像描述】
- 图中显示三名穿着橙色工作服的工人,他们正在一个较深的土坑内进行作业。
- 工人们佩戴安全帽和安全带,并使用绳索进行固定。他们在对一个固定在墙壁上的电力表箱进行读数、记录和验电操作。
- 他们似乎在进行某种高空作业,因为他们的身体悬在空中。
- 较深的土坑的边缘看起来比较粗糙,可能是混凝土或其他硬质材料制成。

【大场景和细分场景】
大场景3**配电-地面**xxx
--环境维护:xxx
--基础施工:xxx

大场景4**配电-高处**:xxx
--大型机械高处作业:xxx
--杆塔:xxx
--其他高处:xxx

模型得到了正确答案,判断出了“高处作业”这一重要分类(大场景判断目前有些不准,因为目前的图像描述没有太关注输电配电等场景)。

综上所述,图像描述的场景可以归类为以下大场景和细分场景:

大场景2:变电-室外(箱体作业)
大场景3:配电-地面(箱体类设备)
大场景4:配电-高处(其他高处)
大场景7:土建(深坑)

场景2 内容审核

实际业务中,可能需要从资金来源合法性、合同内容明确度、责任划分是否清晰、是否包含敏感字和舆论风险等角度进行审核,可能会有几百条规则,此时建议把审核任务分成不同的阶段,或者微调模型,让模型看到某一段文本就能想到对应的规则。

假设目前只做舆情的正面负面审核。我在一段2000字的国际电力新闻插了一段约100字的电力操作故障,后者肯定是负面信息。原文的第4行惊叹号处是隐含的电力故障舆情:

【任务】请判断原文中是否存在与电力有关的负面舆情或正面舆情,给出舆情最强烈的原文片段。
【原文】国际人士积极评价中国新能源产业持续提供优质产能——“有助于加速全球向清洁能源转型”  近年来,中国新能源产业快速发展,相关国际合作加快推进接受本报记者采访的外国专家学者表示,中国新能源产业的优势是通过充分的市场竞争塑造的中国新能源产业持续提供优质产能,为全球绿色发展作出重要贡献  “应以市场眼光和全球视野看待中国的产能发展”  今年1月,马来西亚国会议员、区域策略研究所主席李健聪访问中国,其间参观了新能源、通信、虚拟现实、卫星技术和人工智能等领域的高新技术企业中国在科技创新领域的表现给他留下深刻印象“中国一直致力于能源转型,推动绿色和可持续发展”李健聪说,“中国在太阳能、风能等领域的前沿技术不仅为中国自身经济转型提供了支持,也为全球能源可持续利用树立了榜样” 
 “中国聚焦加快发展新质生产力,推动高质量发展,这将进一步增强中国经济增长动能”巴西商业领袖组织中国区首席执行官小若泽·里卡多·卢斯表示,“中国新能源产品在国际市场上不断走俏,是市场充分竞争的结果科技含量更高、人性化设计更多、更加低碳环保的产品脱颖而出,最终受益的是消费者”  卢斯以新能源汽车行业为例说,中国新能源汽车出口不仅让各国汽车消费者得到实实在在的利益,而且有助于推动低碳经济发展卢斯认为:“世界经济走向繁荣的关键是破除贸易保护主义,发挥不同国家和地区的比较优势,在相互合作中共同推动经济社会发展”  泰国开泰银行高级副总裁蔡伟才表示,目前全球对新能源产品需求量大,中国企业通过积极创新研发、控制生产成本,在相关领域积累了优势,并基于市场需求规划产能在一个经济快速增长的国家,当市场需求出现,将吸引大量投资以满足市场需要  美国中美研究中心特聘研究员丹尼斯·西蒙表示,中国经济增长正从投资驱动转向消费驱动,由此促进新能源等产业提升资本配置效率,实现快速增长  “应以市场眼光和全球视野看待中国的产能发展”泰国正大管理学院中国—东盟研究中心主任汤之敏表示,从市场供需角度看,产能在部分行业、不同时间节点有高低起伏,这是市场竞争调节供求的正常表现;从全球视野看,中国是一个融入全球贸易的开放市场,中国的跨国企业在全球配置生产、布局销售,符合全球的绿色发展需求  “为全球可持续发展作出积极贡献”  
 国际能源署报告指出,2023年全球可再生能源新增装机容量5.1亿千瓦,中国贡献超过一半,为全球可再生能源发电增长作出了巨大贡献中国风电、光伏产品已经出口到全球200多个国家和地区,帮助有关国家和地区获得清洁、可靠、用得起的能源  国际可再生能源署报告指出,过去10年,全球风电和光伏发电项目平均度电成本分别累计下降超过60%80%,其中很大一部分归功于中国创新、中国制造、中国工程  西蒙认为,中国新能源产业规模巨大,部分原因在于拥有其他国家难以复制的成本效率优势和日益完善的供应链生态系统的支持新能源产业的技术持续创新,也让中国在这一领域取得更大发展成绩在清洁能源技术领域建立的优势,不仅让中国成为全球清洁能源革命的领军者,也降低了锂电池和光伏产品等绿色技术的成本,使其他国家更容易获得可再生能源,“有助于加速全球向清洁能源转型,为全球可持续发展作出积极贡献”。
 !!运行车间的操作票上写的是AH103于是按照作业票停了高压开关柜的电源,可是操作拉闸的电源开关柜为AH203柜这是一起明显的操作事故公司在几年前把电工车间分为两部分,维修人员去了维修车间,变电站的人员合并到水气供应的运行车间在分离后已经出现过一次这样的带负荷拉隔离开关的事故,今天又一次出现,是值得深思的一件事情,为什么呢?大家经历过这样的事故吗? 
 近年来,东盟国家积极推动汽车电动化,新能源汽车消费需求持续上升,东盟成为中国新能源汽车出口的重要目的地之一“中国新能源汽车在东盟特别是泰国市场表现亮眼,其显著的竞争优势主要来自持续、快速的技术与产品迭代,其背后是中国开放的市场环境、人力资源和超大规模市场优势以及完善的产供链体系对创新的支持”汤之敏表示,中国车企不仅给泰国消费者带来了品质优良且经济实惠的产品,也促进了泰国汽车产业发展转型,拉动投资和就业,带动泰国经济发展  “面对全球经济低碳发展的紧迫目标,合作创新是最快的方式”  在印度尼西亚,中企承建的芝拉塔漂浮光伏项目成功实现全容量并网发电,预计可为约5万户家庭提供清洁电力;在乌干达,中企承建的卡鲁玛水电站项目最后一台机组发电并网,每年将减少碳排放348万吨,相当于种植150万棵树;在巴西,中国车企比亚迪正在建设大型生产基地综合体,工厂投产后将为当地新增5000多个就业岗位……近年来,中国有序推进清洁能源产业链合作,构建能源绿色低碳转型共赢新模式,深化新能源科技创新国际合作,在帮助其他国家实现减碳目标的同时,促进共同发展繁荣  
 近年来,中国已在非洲实施了数百个清洁能源发电和电网项目,取得了一系列标志性成果肯尼亚非洲政策研究所中国—非洲中心执行主任丹尼斯·穆内内以中企承建的东非最大光伏电站——加里萨50兆瓦光伏发电站为例说,这座于2019年正式投入运营的光伏电站,年均发电量超7600万千瓦时,可满足7万户家庭共计38万多人的用电需求他表示:“非洲与中国在清洁能源领域的合作,不仅增加了当地电力供应、改善了能源安全,还为非洲及世界应对气候变化作出贡献”  
 去年12月,中国动力电池企业国轩高科与泰方合资成立的国轩高科泰国工厂首款电池产品,在泰国罗勇府暹罗东方工业园正式下线工厂合资方泰国国家石油公司总裁兼首席执行官奥达蓬表示,通过与国轩高科合资建设超级电池工厂,集团引入了先进电池技术,能够加速实现在新能源汽车价值链和清洁能源产业方面的目标  中欧数字协会主席路易吉·甘巴尔代拉认为,通过鼓励发展数字经济、智能制造和可持续能源等新兴产业,中国将为增强全球经济韧性作出贡献这不仅有利于中国经济社会发展,也为全球技术进步营造良好合作氛围  “面对全球经济低碳发展的紧迫目标,合作创新是最快的方式”世界工业技术研究组织协会秘书长伯罗斯表示,协会与江苏省产业技术研究院保持密切合作“我们协会致力于在可持续发展方面将本土创新与全球市场联系起来中国在绿色产业与发展方面经验丰富,是我们的重要合作伙伴未来我们将继续与中国紧密合作,为世界带来更多机遇”伯罗斯说  (本报北京、华盛顿、曼谷、内罗毕、里约热内卢、罗马425日电  记者俞懿春、李志伟、刘慧、黄炜鑫、陈一鸣、谢亚宏)

模型识别结果,没有发现负面舆情:

原文中存在以下与电力相关的舆情片段:

正面舆情片段:

“去年12月,中国动力电池企业国轩高科与泰方合资成立的国轩高科泰国工厂首款电池产品,在泰国罗勇府暹罗东方工业园正式下线工厂合资方泰国国家石油公司总裁兼首席执行官奥达蓬表示,通过与国轩高科合资建设超级电池工厂,集团引入了先进电池技术,能够加速实现在新能源汽车价值链和清洁能源产业方面的目标。”
这段文字提到了国轩高科与泰国国家石油公司合资建设的超级电池工厂,以及引入先进电池技术,这体现了清洁能源产业方面的积极发展和国际合作。
“中国动力电池企业国轩高科与泰方合资成立的国轩高科泰国工厂首款电池产品,在泰国罗勇府暹罗东方工业园正式下线”
这段文字表明国轩高科在泰国建立了合资工厂,并成功下线首款电池产品,显示了在海外市场的布局和业务发展。
负面舆情片段:

原文中没有直接提及与电力相关的负面舆情

更换提示词如下:

【任务】请判断原文中是否存在与电力有关的负面舆情或正面舆情,给出舆情最强烈的原文片段。
【原文】国际人士积极评价中国新能源产业持续提供优质产能——“有助于加速全球向清洁能源转型”  近年来,中国新能源产业快速发展,相关国际合作加快推进接受本报记者采访的外国专家学者表示,中国新能源产业的优势是通过充分的市场竞争塑造的中国新能源产业持续提供优质产能,为全球绿色发展作出重要贡献  “应以市场眼光和全球视野看待中国的产能发展”  今年1月,马来西亚国会议员、区域策略研究所主席李健聪访问中国,其间参观了新能源、通信、虚拟现实、卫星技术和人工智能等领域的高新技术企业中国在科技创新领域的表现给他留下深刻印象“中国一直致力于能源转型,推动绿色和可持续发展”李健聪说,“中国在太阳能、风能等领域的前沿技术不仅为中国自身经济转型提供了支持,也为全球能源可持续利用树立了榜样” 
 “中国聚焦加快发展新质生产力,推动高质量发展,这将进一步增强中国经济增长动能”巴西商业领袖组织中国区首席执行官小若泽·里卡多·卢斯表示,“中国新能源产品在国际市场上不断走俏,是市场充分竞争的结果科技含量更高、人性化设计更多、更加低碳环保的产品脱颖而出,最终受益的是消费者”  卢斯以新能源汽车行业为例说,中国新能源汽车出口不仅让各国汽车消费者得到实实在在的利益,而且有助于推动低碳经济发展卢斯认为:“世界经济走向繁荣的关键是破除贸易保护主义,发挥不同国家和地区的比较优势,在相互合作中共同推动经济社会发展”  泰国开泰银行高级副总裁蔡伟才表示,目前全球对新能源产品需求量大,中国企业通过积极创新研发、控制生产成本,在相关领域积累了优势,并基于市场需求规划产能在一个经济快速增长的国家,当市场需求出现,将吸引大量投资以满足市场需要  美国中美研究中心特聘研究员丹尼斯·西蒙表示,中国经济增长正从投资驱动转向消费驱动,由此促进新能源等产业提升资本配置效率,实现快速增长  “应以市场眼光和全球视野看待中国的产能发展”泰国正大管理学院中国—东盟研究中心主任汤之敏表示,从市场供需角度看,产能在部分行业、不同时间节点有高低起伏,这是市场竞争调节供求的正常表现;从全球视野看,中国是一个融入全球贸易的开放市场,中国的跨国企业在全球配置生产、布局销售,符合全球的绿色发展需求  “为全球可持续发展作出积极贡献”  
【任务】请判断原文中是否存在与电力有关的负面舆情或正面舆情,给出舆情最强烈的原文片段。
【原文】国际能源署报告指出,2023年全球可再生能源新增装机容量5.1亿千瓦,中国贡献超过一半,为全球可再生能源发电增长作出了巨大贡献中国风电、光伏产品已经出口到全球200多个国家和地区,帮助有关国家和地区获得清洁、可靠、用得起的能源  国际可再生能源署报告指出,过去10年,全球风电和光伏发电项目平均度电成本分别累计下降超过60%80%,其中很大一部分归功于中国创新、中国制造、中国工程  西蒙认为,中国新能源产业规模巨大,部分原因在于拥有其他国家难以复制的成本效率优势和日益完善的供应链生态系统的支持新能源产业的技术持续创新,也让中国在这一领域取得更大发展成绩在清洁能源技术领域建立的优势,不仅让中国成为全球清洁能源革命的领军者,也降低了锂电池和光伏产品等绿色技术的成本,使其他国家更容易获得可再生能源,“有助于加速全球向清洁能源转型,为全球可持续发展作出积极贡献”。
 !!运行车间的规章制度上写的是xxx于是按照作业票停了xxx的电源,可是操作拉闸的电源开关柜为xxx柜这是一起明显的操作事故厂里在几年前把电工车间分为两部分,维修人员去了维修车间,水电站的人员合并到水气供应的运行车间在分离后已经出现过一次这样的带负荷拉隔离开关的事故,今天又一次出现,是值得深思的一件事情,为什么呢?大家经历过这样的事故吗? 
 近年来,东盟国家积极推动汽车电动化,新能源汽车消费需求持续上升,东盟成为中国新能源汽车出口的重要目的地之一“中国新能源汽车在东盟特别是泰国市场表现亮眼,其显著的竞争优势主要来自持续、快速的技术与产品迭代,其背后是中国开放的市场环境、人力资源和超大规模市场优势以及完善的产供链体系对创新的支持”汤之敏表示,中国车企不仅给泰国消费者带来了品质优良且经济实惠的产品,也促进了泰国汽车产业发展转型,拉动投资和就业,带动泰国经济发展  “面对全球经济低碳发展的紧迫目标,合作创新是最快的方式”  在印度尼西亚,中企承建的芝拉塔漂浮光伏项目成功实现全容量并网发电,预计可为约5万户家庭提供清洁电力;在乌干达,中企承建的卡鲁玛水电站项目最后一台机组发电并网,每年将减少碳排放348万吨,相当于种植150万棵树;在巴西,中国车企比亚迪正在建设大型生产基地综合体,工厂投产后将为当地新增5000多个就业岗位……近年来,中国有序推进清洁能源产业链合作,构建能源绿色低碳转型共赢新模式,深化新能源科技创新国际合作,在帮助其他国家实现减碳目标的同时,促进共同发展繁荣  
【任务】请判断原文中是否存在与电力有关的负面舆情或正面舆情,给出舆情最强烈的原文片段。
【原文】近年来,中国已在非洲实施了数百个清洁能源发电和电网项目,取得了一系列标志性成果肯尼亚非洲政策研究所中国—非洲中心执行主任丹尼斯·穆内内以中企承建的东非最大光伏电站——加里萨50兆瓦光伏发电站为例说,这座于2019年正式投入运营的光伏电站,年均发电量超7600万千瓦时,可满足7万户家庭共计38万多人的用电需求他表示:“非洲与中国在清洁能源领域的合作,不仅增加了当地电力供应、改善了能源安全,还为非洲及世界应对气候变化作出贡献”  
 去年12月,中国动力电池企业国轩高科与泰方合资成立的国轩高科泰国工厂首款电池产品,在泰国罗勇府暹罗东方工业园正式下线工厂合资方泰国国家石油公司总裁兼首席执行官奥达蓬表示,通过与国轩高科合资建设超级电池工厂,集团引入了先进电池技术,能够加速实现在新能源汽车价值链和清洁能源产业方面的目标  中欧数字协会主席路易吉·甘巴尔代拉认为,通过鼓励发展数字经济、智能制造和可持续能源等新兴产业,中国将为增强全球经济韧性作出贡献这不仅有利于中国经济社会发展,也为全球技术进步营造良好合作氛围  “面对全球经济低碳发展的紧迫目标,合作创新是最快的方式”世界工业技术研究组织协会秘书长伯罗斯表示,协会与江苏省产业技术研究院保持密切合作“我们协会致力于在可持续发展方面将本土创新与全球市场联系起来中国在绿色产业与发展方面经验丰富,是我们的重要合作伙伴未来我们将继续与中国紧密合作,为世界带来更多机遇”伯罗斯说  (本报北京、华盛顿、曼谷、内罗毕、里约热内卢、罗马425日电  记者俞懿春、李志伟、刘慧、黄炜鑫、陈一鸣、谢亚宏)

更换后的效果,找到了负面舆情

在提供的原文中,我们可以找到以下与电力相关的舆情:

负面舆情:
原文中未直接提及与电力相关的负面舆情。但提到了一起操作事故,该事故涉及到高压开关柜的操作错误,这间接反映了操作流程或管理上的问题,虽然事故并非直接与电力相关,但可能对在电力系统运行管理方面的形象产生一定影响。

正面舆情:

中国新能源产业的快速发展:原文多次提到中国新能源产业的快速发展,以及其在全球能源转型中的重要作用,这间接提升了能源行业作为推动新能源产业发展的电力企业的形象。
国际合作与产能发展:原文中提到通过国际合作和产能规划,为全球绿色发展作出贡献,这体现了在全球能源市场中的积极角色。
技术创新与成本效率:原文提到中国新能源产业的技术创新和成本效率优势,这可能与在技术创新和成本控制方面的努力有关,从而提升了其正面形象。
清洁能源项目:原文中提到中国企业在非洲实施的清洁能源发电和电网项目,这可能与在海外市场的业务拓展和清洁能源项目实施有关,展现了在推动全球能源转型方面的贡献。
综上所述,原文中并未直接提及与相关的负面舆情,但提到了一起操作事故,间接反映了可能存在的管理问题。而正面舆情则主要体现在中国新能源产业的快速发展、国际合作与产能发展、技术创新与成本效率以及清洁能源项目等方面。

rag效果提升

在其他的尝试中,把原文片段和文章的标题组合在一起给大模型,也能收到类似的效果,例如模型能够过滤掉一些看起来相似但实际上无关的片段,或者给出可读性、见解、都更好的答案,从而提升整体的rag效果。

也许当你把问题重复几遍,大模型自己就能进行rerank和过滤。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值