大模型高频问题排行:基于世界分布的指令微调数据集 lmsys-chat-1m 分析

数据描述

该数据集包含与 25 个最先进的 LLM 的 100 万条真实世界的 Chat 数据。数据时间 是2023 年 4 月至 8 月期间在 Vicuna 演示和 Chatbot Arena 网站上的 210K 个唯一 IP 地址中收集的。每个示例都包含对话 ID、模型名称、OpenAI API JSON 格式的对话文本、语种、OpenAI 审核结果。

数据集做了隐私编辑,对话中的“Mary”和“James”等名字将显示为“NAME_1”和“NAME_2”。此时redacted 字段为 true

数据地址:https://huggingface.co/datasets/lmsys/lmsys-chat-1m

论文地址:LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset

在这里插入图片描述

数据分析

Query长度分布:
在这里插入图片描述

Answer长度分布:
在这里插入图片描述
对话轮数分布:
在这里插入图片描述
语种分布:
在这里插入图片描述
其中,打印了一下排序后的语种(英文777453条,中文24499条,其他语种198048):

English: 777453
Portuguese: 28616
unknown: 27922
Russian: 27596
Chinese: 24499
Spanish: 23758
German: 15317
French: 15139
Italian: 14362
Japanese: 6383
Korean: 5383
Polish: 3348
Indonesian: 2170
Arabic: 2163
Turkish: 1631
Vietnamese: 1557
Ukrainian: 1269
Latin: 1265
Danish: 1110
Dutch: 1080
Greek: 1031
Persian: 820
Czech: 745
Hungarian: 735
Finnish: 661
Swedish: 614
Hawaiian: 596
Serbian: 596
Scots: 569
Romanian: 548
Corsican: 536
Galician: 486
Slovak: 454
Thai: 443
Hebrew: 433
Tsonga: 415
Bulgarian: 397
Malay: 373
Catalan: 372
Esperanto: 365
Norwegian: 356
Norwegian Nynorsk: 265
Somali: 183
Afrikaans: 182
Occitan: 171
Quechua: 170
Swahili: 167
Macedonian: 154
Uzbek: 153
Croatian: 152
Guarani: 141
Breton: 130
Interlingue: 115
Malagasy: 110
Luxembourgish: 106
Volapük: 104
Haitian Creole: 102
Tongan: 102
Manx: 101
Sanskrit: 101
Basque: 101
Bangla: 101
Interlingua: 100
Xhosa: 100
Oromo: 100
Hindi: 94
Samoan: 91
Kinyarwanda: 90
Slovenian: 90
Estonian: 89
Latvian: 89
Tagalog: 87
Wolof: 87
Welsh: 81
Waray: 81
Seselwa Creole French: 80
Māori: 80
Bosnian: 78
Scottish Gaelic: 77
Faroese: 75
Southern Sotho: 72
Lithuanian: 67
Romansh: 63
Tatar: 63
Tswana: 63
zzp: 61
Klingon: 59
Khasi: 57
Icelandic: 56
Irish: 55
Bislama: 54
Ganda: 53
Lingala: 52
Afar: 48
Belarusian: 48
Albanian: 47
Javanese: 47
Hausa: 46
Nyanja: 46
Maltese: 46
Kalaallisut: 43
Azerbaijani: 42
Western Frisian: 41
Fijian: 41
Hmong: 40
Aymara: 40
Nauru: 37
Akan: 37
Yoruba: 36
Morisyen: 35
Kazakh: 33
Cebuano: 30
Turkmen: 29
Shona: 27
Tajik: 25
Sundanese: 23
Kyrgyz: 20
Zhuang: 19
Sinhala: 16
Rundi: 15
Mongolian: 15
Igbo: 15
Amharic: 14
Uyghur: 14
Tamil: 11
Sindhi: 11
xx: 11
Urdu: 10
Zulu: 10
Swati: 9
Venda: 8
Northern Sotho: 8
Armenian: 8
Cherokee: 7
Lao: 7
Bashkir: 6
Burmese: 6
Pashto: 6
Kurdish: 6
Punjabi: 5
South Ndebele: 5
Abkhazian: 5
Nepali: 4
Marathi: 3
Yiddish: 3
Malayalam: 3
Tigrinya: 2
Sango: 2
Inupiaq: 2
Kannada: 2
Tibetan: 1
Odia: 1
Georgian: 1
Khmer: 1

此外,打印了一下排序后的模型来源:

vicuna-13b: 490712
koala-13b: 81586
alpaca-13b: 62469
chatglm-6b: 35660
llama-13b: 32339
vicuna-33b: 31111
llama-2-13b-chat: 29971
oasst-pythia-12b: 26239
fastchat-t5-3b: 26213
claude-1: 23217
dolly-v2-12b: 23178
vicuna-7b: 16601
wizardlm-13b: 16564
RWKV-4-Raven-14B: 15551
mpt-7b-chat: 14650
guanaco-33b: 13719
stablelm-tuned-alpha-7b: 12152
mpt-30b-chat: 8658
gpt-3.5-turbo: 7578
gpt4all-13b-snoozy: 7538
gpt-4: 7304
palm-2: 5537
claude-instant-1: 5434
llama-2-7b-chat: 3778
claude-2: 2241

高频问题分析

全世界人类最经常大模型问哪些问题(仅分析首轮问题)。
中文高频问题Top100:

{
   
  "你好": 7485,
  "你是谁": 1294,
  "你是谁?": 303,
  "你好呀": 207,
  "你好啊": 179,
  "测试": 117,
  "泰酷啦\n": 84,
  "你会说中文吗": 77,
  "你好呀 你是谁": 62,
  "你会中文吗": 47,
  "产品名称:雅诗兰黛,小棕瓶精华淡纹;产品描述:保证每一位女性皆可美丽动人;产品特点:匀净强韧,细腻饱满,紧致淡纹,第七代小棕瓶精华,年轻新维度,水润,淡纹,有光采,有弹性;产品受众:女性,白领;联系方式:丝芙兰官方旗舰店。请帮我根据以上文字生成一段300字的销售风格商品广告语。": 45,
  "哈喽": 43,
  "你好!": 41,
  "请帮我描述一下 唱 跳 rap\n": 41,
  "你好,你是谁": 38,
  "你是?": 37,
  "告诉我你是谁?\n": 37,
  "鲁迅和周树人是什么关系": 34,
  "你是": 33,
  "你是什么模型": 33,
  "你能说中文吗": 31,
  "嗨": 29,
  "将此更正为标准英语:She no went to the market。": 29,
  "你会说中文吗?": 28,
  "在吗": 27,
  "测试一下": 26,
  "你叫什么名字": 25,
  "继续": 23,
  "你好。": 23,
  "晚上好": 23,
  "请回答如下基本数学问题:6个人6天喝6桶水,则9个人9天喝几桶水?": 23,
  "图卢兹的绵羊数量是查尔斯顿的 2 倍,查尔斯顿的绵羊数量是西雅图的 4 倍,如果西雅图有 20 只绵羊,图卢兹、查尔斯顿和西雅图一共有多少只绵羊?": 23,
  "你好?": 22,
  "小李的舅舅的妈妈是小郑的奶奶,小郑和小李什么关系?": 22,
  "你好,你是谁?": 19,
  "哈哈": 18,
  "你好吗": <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值