1.概述
任务依旧是文本分类,大模型选用的是通义千问72B-chat-int4。这里不对参数进行调整,只讲述不同prompt对于结果及其准确度的影响。数据使用之前数据清理的铁矿石文本。
写的非常零碎,只作为个人学习记录,因为服务器莫名掉线,一晚上程序白写,文章后期就摆烂了....仅供参考。
2.调试过程记录
2.1任务初始化
response, history = model.chat(tokenizer,'''1 价格 商品的境外产品价格、境内产品价格及综合价格指数
2 供应端 商品供应端的产量和产能
3 需求端 下游企业的商品消耗量
4 仓储(库存) 一定时点上停留在流通领域内的全部商品
5 产业链 从原料到消费者手中的整个产业链条中的相关商品价格
6 成本 对购买的生产要素的货币支出
7 利润 企业在一定会计期间的经营成果
8 生产的经济技术指标 反映生产技术水平和经济的某一方面情况的绝对数、相对数或平均数
9 物流 物品从供应地向接收地的实体流动过程
10 交易 商品的购售买卖行为
11 进口 我国在一定时期内进口某种商品的数量和价格
12 出口 我国在一定时期内出口某种商品的数量和价格
13 国际影响 与本品种相关的主要国家动态及政策的影响分析
14 客户 品种的使用群体、企业的经营状况
15 衍生品市场 以某种商品为标的的衍生品市场
16 机构 为实现其职能而建立起来的机关体系的总称,主要包括国内外协会、国际联盟、咨询公司的动态、研报
17 舆情(情绪) 通过调研获取到市场参与者对大宗商品现货品种的方向性的情绪态度
18 宏观经济 整个国民经济或国民经济总体及其经济活动和运行状态
19 宏观政策 根据社会系统的需要,社会公众权威制定的行动方案或行动准则
20 意外灾害(自然灾害、事故) 突然发生,造成或者可能造成严重社会危害,需要采取应急处置措施予以应对的自然灾害和事故
21 气象(天气) 发生在大气中的各种自然现象
22 事件 国内宏观、国际、企业、行业、资本市场所发生的与本品种相关的事件
总共是这22类,上面提供了类别名称及其定义。''' , history=None,system="你现在需要做一个文本分类任务,文本可能属于分类中的一个或多个")
print(response)
通过system指定任务,并使用content扩充其知识库,history置零。
这其实进行了多次试验,如果将输出目标放在这段对话里,最后输出类别数量可能减少并出现其他类别,如下。
该文本属于以下类别:
价格:文中提到了庐江和繁昌地区的铁精粉价格。
供应端:文中讨论了连铁走势对供应端的心态提振作用,以及庐江地区矿企的让利出货策略。
需求端:文中提到钢企的观望心态和补库完成导致询盘积极性减弱,市场需求受到影响。
铁精粉:文中主要讨论的是铁精粉的价格和市场情况。
综上所述,该文本所属的类别包括价格、供应端、需求端和铁精粉。
所以使用这一初始化prompt
在这一初始化下输出如下:
好的,我明白了。这是一个文本分类任务,您需要将文本分类为上述22个类别中的一个或多个。我会尽力帮助您完成这个任务。请提供一些示例文本,以便我可以更好地理解您的需求并开始为您服务。
2.2具体任务
先从短文本开始试验不同prompt效果。
response, history = model.chat(tokenizer, '''【黑色持仓日报丨钢坯上5000,螺纹钢期货大涨3.7%】4月2日,唐山钢坯连续上涨,主流钢厂(XD)出厂累涨150元/吨,达到5000元/吨。现货市场连续上涨,带动黑色系期货走高。截止收盘,螺纹21