计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-12

sp_fyf_2024

已于 2024-09-23 08:03:26 修改

阅读量1.8k

点赞数 15

分类专栏：人工智能前沿技术大语言模型深度学习文章标签：人工智能语言模型智能电视数据挖掘计算机视觉机器学习深度学习

于 2024-09-13 12:32:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fyf2007/article/details/142207103

版权

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-12

1. PharmaBench: Enhancing ADMET benchmarks with large language models

Z Niu, X Xiao, W Wu, Q Cai, Y Jiang, W Jin, M Wang… - Scientific Data, 2024

大语言模型在药物发现中的应用：PharmaBench
文章由MindRank AI、伦敦帝国理工学院、华中科技大学和其他机构的研究人员共同撰写。

在这里插入图片描述

背景与总结

ADMET（吸收、分布、代谢、排泄和毒性）特性的优化在药物发现中起着关键作用。
计算方法的发展为药物发现提供了快速且成本效益高的手段，减少了实验工作量和时间。
现有的基准数据集存在局限性，如覆盖的生物测定数据有限，与工业药物发现流程中的实体差异较大。

方法

利用大型语言模型（LLMs）作为核心引擎，从生物医学数据库中的测定描述中提取实验条件。
建立了自动化数据处理框架，用于处理数据，以便编制ADMET基准数据集。
实施了从ChEMBL数据库处理生物测定数据并提取缺失的实验条件的流程。
通过多步骤验证过程确认数据质量、分子特性和PharmaBench的建模能力。

数据处理工作流程

数据收集：主要来源是ChEMBL数据库，包括实验值、化学结构、测定描述等。
数据挖掘：使用GPT-4模型作为数据挖掘任务的核心，通过少量示例学习来提取实验条件。
数据标准化：包括结构格式、实验条件和实验值的标准化。
数据过滤：移除异常分子和不规则实验结果，构建最终基准集。
AI建模数据准备：统一重复结果，划分训练和测试集。

技术验证

通过重复测试、属性分布分析和深度学习及机器学习建模来评估数据集。
展示了PharmaBench数据集在不同模型上的表现，证明了数据集的质量。

实验相关

提供了11个ADMET数据集，包括标准化的SMILES表示、实验值和训练标签。
用户可以使用提供的标签进行公平比较。

代码可用性

研究中使用的代码已存储在GitHub上，所有计算均在Python 3.12.2虚拟环境下完成。

参考文献
文章列出了57个参考文献，涵盖了药物发现、大语言模型、数据挖掘和机器学习等领域的研究。

2. Consumer segmentation with large language models

Y Li, Y Liu, M Yu - Journal of Retailing and Consumer Services, 2025
大语言模型在消费者细分中的应用

摘要

消费者细分对企业定制产品至关重要。本研究探索了大型语言模型（LLMs）在市场研究消费者细分中的应用。
通过LLMs进行基于消费者调查数据的聚类分析，重点关注基于文本的多项选择题和开放式问题。
使用LLMs模型进行文本嵌入聚类，提高了聚类准确性。创建了模拟消费者偏好的聊天机器人，准确率超过89%。研究结果强调了LLMs框架在市场研究中的潜力。

引言

零售文献中包含多种揭示消费者偏好的方法，其中调查问卷起着关键作用。
传统的调查方法忽视了问卷中的文本数据，导致研究者和实践者难以理解消费者偏好。
LLMs在理解和生成自然语言方面具有强大的能力，已被应用于市场感知分析、搜索引擎优化和个性化营销等领域。

消费者细分

“用户画像”概念涉及从用户的基本、社会、行为和心理属性中提取共同特征。
企业通过收集和分析消费者的社会特征、生活习惯和购买行为数据来细分消费者群体。

嵌入模型

在自然语言处理（NLP）中，嵌入是将文本数据转换为数值向量的过程。
嵌入向量能够表示词、短语或整个文档在连续向量空间中的语义相似性。

数据来源

与一家经营1000多家连锁店和5000多家高质量零售店的中国酒类公司合作，获得了500份有效回应。
调查问卷旨在探索消费者对酒类的偏好，并构建详细的消费者画像。

聚类结果

使用K-means聚类算法构建消费者画像。K-means算法易于实现和理解，计算效率高，适用于中等规模数据集。

关键结论

研究调查了LLM技术在协助公司进行消费者细分和构建消费者画像方面的应用。
LLM方法是一个可靠且高效的工具，能够有效地对调查文本进行聚类，并基于真实消费者体验促进扩展问答环节。

最低0.47元/天解锁文章

博客等级

码龄18年

151
原创

3681
点赞

2715
收藏

3628
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

下一篇：: 计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-13

最新评论

浅谈大龄程序员如何度过职业瓶颈期，拥抱AI新纪元
2401_87573025: 很有价值的文章
【电商搜索】现代工业级电商搜索技术-亚马逊-经典的Item-to-Item协同推荐算法
2401_87573025: 经典的召回算法
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-14
力学AI有限元: 为用户生成内容（UGC）机器翻译的情感表达状态最先进的质量估计器。研究者使用了一个与情感相关的数据集，该数据集包含了人类注释的错误，并基于多维质量指标（MQM）计算了质量评估分数。通过比较几种LLMs与微调基线模型的准确性，研究发现参数高效微调（PEFT）的LLMs在分数预测方面表现更好，并且具有人类可解释的解释。然而，对LLMs输出的手动分析显示，它们在评估UGC的机器翻译时仍然存在拒绝回复提示和输出不稳定等问题。
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-09
小王毕业啦: 博主的这篇关于人工智能算法和大语言模型最新研究进展的文章真是非常精彩和有价值。通过阅读，我对这个前沿技术领域有了更深入的了解，并且博主的细节描写非常到位，展现出了深厚的专业功底。期待博主未来能够持续分享更多这样优质的文章，也希望能够得到博主的指导，共同进步。感谢博主的辛勤分享和支持！
【大语言模型-论文精读】用于医疗领域摘要任务的大型语言模型评估综述
小码农<^_^>: 这篇博文内容非常扎实，语言简练易懂，读起来很顺畅。作者的观点层次分明，逻辑也很清晰，例子和引用恰到好处地增强了说服力，阅读起来让人很有收获。

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

sp_fyf_2024 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。