自从ChatGPT等大型语言模型(Large Language Model, LLM)出现以来,其类通用人工智能(AGI)能力引发了自然语言处理(NLP)领域的新一轮研究和应用浪潮。尤其是ChatGLM、LLaMA等普通开发者都能运行的较小规模LLM开源之后,业界涌现了大量基于LLM的二次微调和应用案例。
传神社区(Opencsg)旨在收集和整理与NLP数据集相关的开源数据集。目前每篇文章整理的资源至少10个!如果本篇文章对您有帮助,欢迎点赞与收藏~
我们也欢迎大家贡献本文未收录的开源数据集,提供对应的资源,描述与链接,感谢您的支持!
目录
1. 金融数据集
-
1.1 基于股票特定新闻分析模型的新数据集和自动化股票交易
1.2 FinGLM金融大模型数据集
1.3 ATIS:航空公司旅行信息系统
1.4 Olist 的巴西电子商务公共数据集
-
1.11 Financial Opinion Mining and Question Answering
1.12 金融咨询服务数据集
1.13 财经新闻情感分类数据集
1.14 蚂蚁金融问题匹配语料库
1.15 金融协议数据集
-
1.5 电商推荐“抱大腿”攻击识别数据集
1.6 女性服装电商评论
-
1.7 消费者投诉 - 金融产品数据集
-
1.8 基于金融-司法领域(兼有闲聊性质)的聊天机器人
-
1.9 超级碗广告数据集
-
1.10 证劵交易所数据集
-
-
01 金融数据集
1.1 基于股票特定新闻分析模型的新数据集和自动化股票交易
Astock:
简介:基于特定股票新闻分析模型的数据集和自动股票交易的代码。
地址:https://www.opencsg.com/datasets/MagicAI/Stock_Exchange
1.2 FinGLM金融大模型数据集
FinGLM:
简介:FinGLM: 致力于构建一个开放的、公益的、持久的金融大模型项目,利用开源开放来促进「AI+金融」.目前开源数据有 1w+份年报数据、10000条人工标注评测数据等。
地址:https://www.opencsg.com/datasets/MagicAI/FinGLM
1.3 ATIS:航空公司旅行信息系统
ATIS:
简介:该ATIS(航空旅行信息系统)是由录音和相应的关于人类要求对自动化航空旅行查询系统航班信息手册成绩单的数据集。数据包含 17 个独特的意图类别。原始分割分别包含训练、开发和测试集中的 4478、500 和 893 个意图标记的参考话语。
地址:https://www.opencsg.com/datasets/MagicAI/ATIS
1.4 Olist 的巴西电子商务公共数据集
Olist:
简介:100,000 个包含产品、客户和评论信息的订单。这是一个巴西电子商务公共数据集,包含在 Olist Store 下的订单。
地址:https://www.opencsg.com/datasets/MagicAI/olist
1.5 电商推荐“抱大腿”攻击识别数据集
AAIG_CUP:
简介:随着互联网的发展,网购成为越来越多人的选择,平台流量竞争也越发激烈。为了保证平台的公平性,如何准确、高效地识别这类型的恶意流量攻击,实时过滤恶意的点击数据是推荐系统中迫切需要解决的问题。
地址:https://www.opencsg.com/datasets/MagicAI/AAIG_CUP
1.6 女性服装电商评论
Womens_Clothing_E-Commerce_Reviews:
简介:这是一个围绕客户评论的女装电子商务数据集。它的九个支持功能提供了一个很好的环境,可以通过其多个维度来解析文本。由于这是真实的商业数据,因此进行了匿名处理,并将评论文本和正文中对公司的提及替换为“零售商”。
地址:https://www.opencsg.com/datasets/MagicAI/Womens_Clothing_E-Commerce_Reviews
1.7 消费者投诉 - 金融产品
Consumer_Complaints:
简介:此数据集是我们发送给公司以回应有关消费者金融产品和服务的投诉的集合,包含了带有文本的金融产品消费者投诉。
地址:https://www.opencsg.com/datasets/MagicAI/Consumer_Complaints
1.8 基于金融-司法领域(兼有闲聊性质)的聊天机器人
Chatbot_CN:
简介:基于金融-司法领域(兼有闲聊性质)的聊天机器人,其中的主要模块有信息抽取、NLU、NLG、知识图谱等,并且利用Django整合了前端展示,目前已经封装了nlp和kg的restful接口
地址:https://www.opencsg.com/datasets/MagicAI/Chatbot_CN
1.9 超级碗广告
Super_Bowl_Advertising:
简介:此数据集是一个简单的CSV文件,其中总结汇总了在1967年至2020年超级碗期间展示的所有广告。
地址:https://www.opencsg.com/datasets/MagicAI/Super_Bowl_Advertising
1.10 证劵交易所数据集
Stock_Exchange:
简介:从雅虎财经收集的数据,追踪来自世界各地(美国、中国、加拿大、德国、日本等)证券交易所的指数的每日价格数据。
地址:https://www.opencsg.com/datasets/MagicAI/Stock_Exchange
1.11 Financial Opinion Mining and Question Answering
FIQA:
简介:自然语言处理 (NLP) 技术和资源的日益成熟正在极大地改变许多应用程序领域的格局,这些领域依赖于大规模分析非结构化数据。金融领域依赖于对多个非结构化和结构化数据源的解释,以及对快速和全面的决策制定的需求,已经成为NLP,Web挖掘和信息检索 (IR) 技术实验的主要基础。这一挑战的重点是推进金融领域基于方面的情绪分析和基于观点的问题回答的最新技术。
地址:https://www.opencsg.com/datasets/OpenDataLab/FIQA
1.12 金融咨询服务数据集
DISC-Fin-SFT:
简介:DISC-Fin-SFT总共包含约25万条数据,分为四个子数据集,它们分别是金融咨询指令、金融任务指令、金融计算指令、检索增强指令。
地址:https://www.opencsg.com/datasets/MagicAI/DISC-Fin-SFT
1.13 财经新闻情感分类数据集
Financial news_sentiment:
简介:训练数据来自 https://xueqiu.com,为中文。正样本(pos):6873条,负样本(neg):3591条;
地址:https://www.opencsg.com/datasets/MagicAI/Financial_news_sentiment
1.14 蚂蚁金融问题匹配语料库
AFQMC:
简介:由蚂蚁在2020创建的蚂蚁金融问题匹配语料库 (AFQMC) (线索基准) 数据集是一个二进制分类任务,旨在预测两个句子在语义上是否相似。包含JSON文件格式的n/a。
地址:https://www.opencsg.com/datasets/MagicAI/AFQMC
1.15 金融协议数据集
FIN:
简介:通过美国证券交易委员会 (SEC) 备案的金融协议数据集。根据 CoNLL-2003 数据集中提供的四种 NE 类型:LOCATION (LOC)、ORGANIZATION (ORG)、PERSON (PER) 和 MISCELLLANEOUS (MISC),随机选择了 8 个文档(共 54,256 个单词)进行手动注释。
地址:https://www.opencsg.com/datasets/OpenDataLab/FIN
欢迎加入传神社区
•贡献代码,与我们一同共建更好的OpenCSG
•Github主页
欢迎🌟:https:// github.com/opencsg
•Huggingface主页
欢迎下载:https://huggingface.co/opencsg
•加入我们的用户交流群,分享经验
扫描上方二维码添加传神小助手
“ 关于OpenCSG
开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。
关注OpenCSG
加入传神社区