专为Excel而生的大模型来了

Microsoft发布全新的 AI 大语言模型SpreadsheetLLM,将广泛使用于理解并处理复杂的电子表格数据,如在Excel、谷歌 Sheets中自动生成财务报告、识别数据中的异常或趋势、提供个性化产品或服务推荐等。网友调侃:“凯伦的工作很快就会被人工智能取代”。

12日,Microsoft发布了一个新的大型语言模型,计划为 Excel、谷歌 Sheets 等电子表格应用程序开发全新的 AI 大语言模型--SpreadsheetLLM。

Microsoft在论文指出,SpreadsheetLLM作为一款全新的AI模型,将广泛使用于理解并处理复杂的电子表格数据。

SpreadsheetLLM具有改变电子表格数据管理和分析的潜力,为更智能和高效的用户交互铺平了道路。

这或许会让会计师和数据分析师们对他们的未来工作前景感到担忧。网友们在社交平台X上调侃,认为“凯伦的工作很快就会被人工智能取代”。

“凯伦可能很快就会失业”

研究人员指出,当前的电子表格应用程序功能丰富,在布局和格式方面为用户提供了大量选择,这使得传统的 AI 大语言模型难以在电子表格处理方面发挥作用。而 SpreadsheetLLM 就是专门为电子表格应用而设计的 AI 模型。

微软还开发了 SheetCompressor(压缩电子表格)工具,以帮助 SpreadsheetLLM 更好地理解和处理电子表格数据。

研究人员称,SpreadsheetLLM 的潜在应用非常广泛,从自动执行日常数据分析任务,到提供基于电子表格数据的智能见解和建议。例如,SpreadsheetLLM 可用于自动生成财务报告、识别数据中的异常或趋势、为客户提供个性化的产品或服务推荐等。

因此,SpreadsheetLLM 有可能彻底改变企业处理数据的方式。

一位用户声称:“正如我们所知,能够编写 SQL 的 LLM 将扼杀整个数据工程行业。”

另一位写道,“SaaS陷入了深深的麻烦。”

“这对金融界来说将产生巨大影响”

宾夕法尼亚大学沃顿商学院副教授伊桑·莫利克(Ethan Mollick)在推特上写道:“这再次表明 LLM 很快就能处理结构化和非结构化电子表格数据。这将解锁许多用例(预测、财务、估值等),并且拥有电子表格真实来源往往会减少幻觉。”

SpreadsheetLLM如何工作?

SpreadsheetLLM通过将电子表格数据编码为大型语言模型(LLM)可以理解的格式,从而使LLM能够对电子表格数据进行推理、回答有关数据的问题,甚至根据自然语言提示生成新的电子表格。

SpreadsheetLLM的核心是“SheetCompressor”框架,该框架可以有效地压缩和编码电子表格数据,使其更易于LLM处理。SheetCompressor由三个模块组成:

▲基于结构锚点的压缩:在整个电子表格中放置“结构锚点”,以帮助LLM理解数据结构。

▲逆索引翻译:将电子表格转换为更紧凑的格式,并消除冗余数据。

▲数据格式感知聚合:根据数字格式和数据类型对相邻单元格进行分组。

SHEETCOMPRESSOR 框架的插图(图片:Microsoft)

Microsoft称,SpreadsheetLLM显着提高了电子表格检测任务的性能,在 GPT4 的上下文学习设置中比普通方法高出 25.6%,使用词元(token)的成本降低了 96%,并能提供更好的处理结果。

目前,Microsoft还没有公布何时向公众发布SpreadsheetLLM 的消息。该论文指出,该模型仍有一些限制,如对于复杂或结构化程度高的数据,其理解能力仍然有限;SheetCompressor目前还不能压缩包含自然语言的单元格等等。

隔夜美国科技股行情

高盛集团Prime Services desk最新报告指出,对冲基金连续第四周抛售信息技术和通信服务股票,非必需消费品板块成新宠。最近八周里面,对冲基金已经有七周出现净抛售。在信息技术领域,除了IT服务外,几乎所有子行业均出现净卖出,主要涉及软件、技术硬件和电子设备,而在通信服务领域,互动媒体和服务、娱乐以及多元化电信服务的净卖出量超过了媒体行业的净买入量。

“科技七姐妹”涨跌不一,尾盘均回吐多半涨幅。特斯拉表现最好,美股早盘涨幅扩大近7%后收涨1.78%,此前马斯克公开支持特朗普;苹果盘初涨近3%后收涨1.68%,时隔两个交易日再创收盘历史新高,市值超过3.59万亿美元维持第一;微软涨近0.6%后又跌近0.5%,最终收涨0.09%,市值维持第二;谷歌A一路冲高至涨超1.7%,最终收涨0.79%。英伟达跌1.6%后收跌0.62%,市值3.16万亿美元位居美股第三,“元宇宙”Meta则收跌0.54%,亚马逊跌0.91%。

芯片股涨跌互异,重演上周五的尾盘加速下行。费城半导体指数涨1.4%后一度转跌,最终微涨0.04%,仍逼近历史最高,行业ETF SOXX微涨0.11%。英伟达两倍做多ETF跌1.43%;台积电ADR跌1.14%,美光科技跌2.01%,英特尔跌0.62%,AMD跌0.99%,Arm控股跌2.01%,而科磊涨0.05%,应用材料涨0.88%,高通涨2.84%,博通涨0.8%。

AI概念股走势分化,多只尾盘走弱并收于日低。SoundHound.ai跌9.19%,此前三天累计上涨将近54.23%;甲骨文跌1.17%,BigBear.ai跌3.11%,Snowflake跌1.5%,戴尔跌1.68%,而Palantir涨2.14%,CrowdStrike涨1.63%。

### 使用 LLM 读取 Excel 文件的方法 为了利用大型语言模型(LLM)应用程序有效地读取和处理来自 Excel 文件的数据,可以借助像 `pandas` 这样的 Python 库来加载 Excel 数据到 DataFrame 中。之后,通过集成 LlamaIndex 框架,能够进一步增强数据处理能力,确保与 LLM 的无缝协作[^1]。 #### 方法概述 首先安装必要的依赖项: ```bash pip install pandas openpyxl llama-index ``` 接着编写一段脚本用于读取 Excel 文件并将内容传递给 LLM 处理模块: ```python import pandas as pd from llama_index import SimpleDirectoryReader, GPTSimpleVectorIndex def read_excel_to_dataframe(file_path: str) -> pd.DataFrame: """ 将 Excel 文件转换成 Pandas DataFrame. 参数: file_path (str): Excel 文件路径 返回: pd.DataFrame: 包含 Excel 表格数据的 DataFrame 对象 """ df = pd.read_excel(file_path) return df excel_file_path = 'example.xlsx' dataframe = read_excel_to_dataframe(excel_file_path) # 假设已经有一个训练好的 LLM 和对应的索引实例化对象 index index = GPTSimpleVectorIndex.load_from_disk('index.json') for _, row in dataframe.iterrows(): document_content = " ".join([str(item) for item in row]) index.insert(document_content) query_engine = index.as_query_engine() response = query_engine.query("请提供关于此表格的一些见解") print(response.response) ``` 这段代码展示了如何将 Excel 文件的内容导入至内存中的结构化表单,并将其逐行插入到由 LlamaIndex 创建的知识图谱里以便后续查询分析。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值