- 博客(106)
- 收藏
- 关注
原创 Foundation Agent:深度赋能AI4DATA
我们采用动态层次规划方法,构建任务行动图以适应数据变化,使Foundation Agent能够自动解决各种复杂的数据科学问题,将平均调试次数从1.48降低到0.32,执行成本降低70%。Manus的爆火并非偶然,随着基础模型效果不断的提升,Agent作为大模型的超级应用备受全世界的关注。领域知识融合难题:传统AI难以有效整合行业专业知识,导致数据分析应用场景受限。我们通过构建经验池系统,将行业专家经验与AI能力有机结合,实现了知识的高效复用与迭代优化,使AI4DATA能够真正理解并应用领域专业知识。
2025-04-20 17:40:22
334
原创 Chat2DB创始人姬朋飞:AI在 text2sql应用领域的实践
Manus的爆火并非偶然,随着基础模型效果不断的提升,Agent作为大模型的超级应用备受全世界的关注。深入了解Text2SQL在大规模商业场景的完整解决方案。获取准确率优化、复杂查询处理等技术难点的解决思路。掌握LLM结合业务知识的关键技术路径和实现方法。学习RAG、多阶段生成等前沿技术的实战应用。AI在 text2sql应用领域的实践。了解项目推进过程中的典型坑点和规避方法。AI Agent技术与应用峰会将在。掌握效果优化、成本控制的实用策略。共同探讨技术进展和应用形式。DataFun线上社区举办。
2025-04-19 12:50:35
289
原创 ChatBI 落地实战:精准解决企业数据痛点
AI数据分析的风口已至,但为何许多企业仍停留在“纸上谈兵”?《ChatBI案例合集》首次系统性拆解20个真实场景,覆盖10+行业头部企业的一线经验,为你揭开AI赋能商业的核心逻辑。阿里AIGC技术、腾讯音乐SuperSonic、京东大模型演化、平安人寿智能报表……深度解读:DeepSeek如何用SwiftAgent重构大数据链路?互联网流量分析、金融风控归因、零售用户画像、娱乐内容洞察。不只有代码和算法,更聚焦“如何用AI驱动业务增长”。跳出取数工具人困境,掌握AI赋能的升维打法。为什么这份合集值得一读。
2025-04-18 18:53:00
330
原创 Foundation Agent:深度赋能AI4DATA
数据科学任务的动态适应挑战:数据分析任务通常涉及多个互相关联的步骤,需要动态调整中间数据和适应不断变化的任务依赖关系。我们采用动态层次规划方法,构建任务行动图以适应数据变化,使Foundation Agent能够自动解决各种复杂的数据科学问题,将平均调试次数从1.48降低到0.32,执行成本降低70%。Manus的爆火并非偶然,随着基础模型效果不断的提升,Agent作为大模型的超级应用备受全世界的关注。获取跨行业AI4DATA应用的最佳实践与经验,包括电力、航空、金融等领域的实际落地案例。
2025-04-18 18:46:43
198
原创 开源一个MCP+数据库新玩法,网友直呼Text 2 SQL“有救了!”
我们会简要回顾过去这类技术的10年发展史,并列出当下实际场景中暴露出来的新的挑战,进一步我们给出一个我们对这些挑战的解决思路(析言xiyan),最后我们会给出我们对短期和长期未来的技术趋势的理解。2025年4月19日,第75期DataFunSummit:大模型时代数据科学的变与不变将在DataFun线上社区举办,数据科学主题峰会已经连续举办5届,是国内少数关注数据科学主题和数据科学从业者的专业会议之一。3、析言中的数据库结构增强,析言中的知识增强,析言中的模型增强;1、背景,模型访问数据库的技术变迁;
2025-04-17 13:19:46
292
原创 乐信集团副总经理周道钰亲述 :乐信“黎曼”异动归因系统的演进之路
此外,当下大模型技术发展迅猛,我们也积极探索其在异动检测中的应用,为金融科技领域的异动归因开辟新路径。2025年4月19日,第75期DataFunSummit:大模型时代数据科学的变与不变将在DataFun线上社区举办,数据科学主题峰会已经连续举办5届,是国内少数关注数据科学主题和数据科学从业者的专业会议之一。本次会议继续由DataFun社区主办,计划邀请30+位重量级数据科学家同台分享交流,深入辩证的探讨大模型时代数据科学在技术与应用的“变与不变”,立足不变夯实基础,顺应变化逐浪新潮流。
2025-04-16 18:48:49
262
原创 【无标题】
我们会简要回顾过去这类技术的10年发展史,并列出当下实际场景中暴露出来的新的挑战,进一步我们给出一个我们对这些挑战的解决思路(析言xiyan),最后我们会给出我们对短期和长期未来的技术趋势的理解。2025年4月19日,第75期DataFunSummit:大模型时代数据科学的变与不变将在DataFun线上社区举办,数据科学主题峰会已经连续举办5届,是国内少数关注数据科学主题和数据科学从业者的专业会议之一。3、析言中的数据库结构增强,析言中的知识增强,析言中的模型增强;1、背景,模型访问数据库的技术变迁;
2025-04-16 18:44:02
302
原创 复旦肖仰华:大模型的数据科学!
2025年4月19日,第75期DataFunSummit:大模型时代数据科学的变与不变将在DataFun线上社区举办,数据科学主题峰会已经连续举办5届,是国内少数关注数据科学主题和数据科学从业者的专业会议之一。6.总结:数据是大模型发展过程中长期性、根本性、战略性问题,是引领大模型从“只知其然”的前“牛顿”时代走向“知其所以然”的“牛顿”时代的关键。3.大模型的指令工程:大模型微调指令的分级体系、评价标准、优化方法等,以及大模型指令学习过程中的优化策略。大模型时代数据科学的变与不变。将带来报告,主题为《
2025-04-12 11:34:11
321
原创 重大突破!MCP加持下text-to-sql的关键技术进展
我们会简要回顾过去这类技术的10年发展史,并列出当下实际场景中暴露出来的新的挑战,进一步我们给出一个我们对这些挑战的解决思路(析言xiyan),最后我们会给出我们对短期和长期未来的技术趋势的理解。2025年4月19日,第75期DataFunSummit:大模型时代数据科学的变与不变将在DataFun线上社区举办,数据科学主题峰会已经连续举办5届,是国内少数关注数据科学主题和数据科学从业者的专业会议之一。3、析言中的数据库结构增强,析言中的知识增强,析言中的模型增强;1、背景,模型访问数据库的技术变迁;
2025-04-12 11:25:25
133
原创 AI时代的职业发展思考:人机协作是最优解吗?
2025年4月19日,第75期DataFunSummit:大模型时代数据科学的变与不变将在DataFun线上社区举办,数据科学主题峰会已经连续举办5届,是国内少数关注数据科学主题和数据科学从业者的专业会议之一。4. AI提高数据科学工作效率的其他方式:代码优化,语言转换,AI辅助用自然语言进行数据可视化,改写专业术语使其浅显易懂,利用AI学习新工具。2. AI在数据收集与清理中的应用:AI赋能的数据匹配,从非结构化文本图像中提取数据信息,语义搜索,基于embedding的内容相关性分析。
2025-04-09 11:02:35
276
原创 不是劝退,但“BI”基础不佳就先“别搞”ChatBI了!
别钻入到数据不准的死胡同,不是只有NL2SQL一个取数路径,不另起炉灶、搞端到端的ChatBI,而在BI上叠加AI能力,即轻有准;当前阶段ChatBI对业务是锦上添花的,并未比传统BI提供更多的价值,需要持续探索,找价值增量;只要有一个好的“BI”,在其上叠加AI的能力,就能做一个很好的ChatBI了;ChatBI有较大的落地价值,从上线前后消费数据的人数增加上可感知;他所在的业务线,ChatBI使用渗透率很高,问数准确率也很高;除了模型能力外,制约问数准确率的关键的关键的关键是数据质量;
2025-04-08 16:17:39
170
原创 大模型时代数据科学岗位的未来思考
数据科学助力业务增长的使命是:应用科学方法和数据工具来研究业务问题,解决用户需求,找到新的业务增长路径。2025年4月19日,第75期DataFunSummit:大模型时代数据科学的变与不变将在DataFun线上社区举办,数据科学主题峰会已经连续举办5届,是国内少数关注数据科学主题和数据科学从业者的专业会议之一。数据增长主要分成数据洞察,数据能力和数据策略三大部分,我们要从数据洞察中寻找业务增长空间,然后构建合适的数据能力,最后通过设计实验和放量迭代,达到提升业务指标的目的。数据科学与金融业务增长。
2025-04-07 18:24:28
147
原创 oCPM 保成本,为什么还会超成本?腾讯金融外投与风控负责人拆解原因
这三者的平衡与规则设计,即广告平台的竞价机制,只有深入的洞察此机制,才能使得广告主提效的措施达到事半功倍的效果。2025年4月19日,第75期DataFunSummit:大模型时代数据科学的变与不变将在DataFun线上社区举办,数据科学主题峰会已经连续举办5届,是国内少数关注数据科学主题和数据科学从业者的专业会议之一。从事数据工作10年+,深耕核心的金融业务场景,含支付、理财、信用卡、证券、信贷等,有丰富的数据应用的经验沉淀,当前负责腾讯金融科技数据中台的外投与风控工作。广告的售卖方式是怎样的?
2025-04-05 13:00:00
297
原创 我用运筹优化规划“换电”服务网络-清华大学博士后王志远
本次分享将针对换电需求空间分布不均衡的问题,展开换电站选址与定容研究, 提出有序换电策略,构建分布式鲁棒优化模型,设计列与约束生成算法,并利用北京换电车辆数据验证模型与算法有效性,给出管理见解。王志远,北京理工大学博士毕业,新加坡国立大学访问学者,现为清华大学工业工程系博士后,研究聚焦于鲁棒优化、换电服务网络规划等领域,在国内外重要期刊发表多篇论文,参与多项国家自然科学基金项目,并与知名企业合作进行优化算法落地。算法需解决大规模问题下实时调度的落地,实现从理论到实际部署的转化。
2025-04-04 14:15:00
165
原创 京东零售首次公开!6B参数时序大模型实现20000款商品自动补货预测
TimeHF 基于京东全场景销售及公开数据构建 210B 大小的高质量的时序数据集,设计了首个面向时序预测的 RLHF 框架(TPO算法),将专家经验通过 RLHF 机制嵌入模型,实现人类认知与 AI 的协同进化。18年校招加入京东零售供应链部门,专注于供应链管理、采购自动化、时序大模型、可解释预测等的研究与应用,现作为库存算法专家,致力通过人工智能技术优化京东供应链效率,曾作为核心成员获得Gartner2024年全球供应链技术创新总决赛冠军。五:行业展望:大模型在供应链管理中的进一步应用。
2025-04-03 09:00:00
718
原创 Snap资深数据科学家:掌握这12种AI for Data方法,成为数据卷王
2025年4月19日,第75期DataFunSummit:大模型时代数据科学的变与不变将在DataFun线上社区举办,数据科学主题峰会已经连续举办5届,是国内少数关注数据科学主题和数据科学从业者的专业会议之一。4. AI提高数据科学工作效率的其他方式:代码优化,语言转换,AI辅助用自然语言进行数据可视化,改写专业术语使其浅显易懂,利用AI学习新工具。2. AI在数据收集与清理中的应用:AI赋能的数据匹配,从非结构化文本图像中提取数据信息,语义搜索,基于embedding的内容相关性分析。
2025-04-02 17:03:58
375
转载 十分钟验证一个高性能车联网数据平台解决方案
本文将分享车联网大数据平台的解决方案。1. 高性能车联网大数据平台要具备的能力2. 每秒 1.8 亿写入的车联网大数据平台应用实例3. 基于 DolphinDB 的车联网大数据处理架构4. 代码附录分享嘉宾|DolphinDB智能网联汽车在车联网的应用上,通常是以为基础,结合大数据、人工智能技术,通过 OT (Operation Technology)和 IT (Information Technology) 融合的方式,实现智能车辆的辅助驾驶、状态监控、远程管理、数据分析及决策等功能。
2024-03-28 19:45:00
423
原创 数据治理与大模型一体化实践
大模型落地到当前这个阶段,核心关注点还是领域大模型,而领域大模型落地的前提在于两点:需求端,对当前应用的降本增效以及新应用的探索;供给端,训练技术已经有较高的成熟度。
2023-12-21 19:00:00
1446
原创 OLAP技术的选择,进化和思考
“在多年以前,数据库的硬件瓶颈主要在于磁盘和网络带宽,随着磁盘读写速度和网络带宽的提升,也就是IO不会成为数据库的明显瓶颈。”炎凰数据研发工程师吴立表示,“如今,CPU成为了数据库执行效率上的新的瓶颈。”
2023-12-21 13:47:33
1120
原创 如何冲破 GPT-4 的信息茧房?
即便大模型已成为行业趋势,人工智能从业者仍然需要扎根经典技术和现实场景来构建准确、高效的人工智能应用,这是数据智能时代的基本实践之道,也是 DataFun 一直不忘的使命。
2023-04-27 14:22:21
620
原创 B站基于缓存优化 PRESTO 集群查询性能
当 Presto 去 Hive Metastore 查询的时候,如果想要访问 Alluxio 的数据时,比较简单的做法是将 Hive Metastore 里相应的 scheme 转换为 Alluxio 的 scheme,但这会带来的问题是对于其他的引擎(比如 spark),因为其本来就没有接入 Alluxio,会导致查询不可用。Dispatcher 是一套内部自研的服务,根据查询 HDFS 的数据量、目前引擎的负载情况等将用户提交的 query 路由到相应的引擎进行执行。此问题已经在社区中有了相应的修复。
2023-02-13 18:39:20
1129
1
原创 图算法在风控场景的应用
在现实应用中,很多时候我们没有办法对黑白灰样本去做完全精确的定位。那该如何利用类似社交网络的同质性(好人和好人关系近,坏人和坏人关系近)做团伙识别?在风控场景,很容易通过强规则产出高准确率的样本,但覆盖率很低(低召回),那么如何扩充这些样本呢?
2022-12-16 17:04:01
2020
原创 火山引擎虚拟数字人技术与应用
火山引擎正在打造完善的虚拟数字人技术和应用体系,那么火山引擎是如何定义虚拟数字人的呢?火山引擎 2D 虚拟数字人和 3D 数字人采用了怎样先进的技术?火山引擎数字人有哪些应用和前景展望?今天我们就来一起探秘火山引擎虚拟数字人技术与应用。
2022-12-03 20:00:00
4063
2
原创 京东零售大数据云原生平台化实践
分享嘉宾:吴维伟 京东 架构工程师编辑整理:陈妃君 深圳大学出品社区:DataFun导读:随着业务调整和集群资源整合需求,大数据系统中集群数据迁移复杂混乱。本文将以京东大数据平台为例,介绍京东近一年在数据分布式存储和分层存储上的探索和实践。今天的介绍会从下面三点展开:京东数据平台架构简介跨域存储分层存储--01/京东数据平台架构简介京东数据平台的整体架构主要由六部分组成,其中数据存储作为计算存储层的底层组件支撑着上游的计算引擎调度,以及更高层的工具层、服务层和应用层。在整个数据平
2022-11-26 16:23:15
1476
原创 基于隐私保护计算的金融科技创新探索
分享嘉宾:霍昱光 建信金科 资深算法研究员编辑整理:松烨 博瑜科技出品平台:DataFunTalk导读:本次分享主要聚焦于行业应用方面,介绍建信金科在隐私保护计算领域所做的一些探索和尝试。01/背景介绍随着数据规模持续上涨,根据中国大数据市场的预测,预计2025年的数据量会将从2018年的7.6ZB增至2025年的48.6ZB,超过美国同期的数据产生量约18ZB。同时带来的是数据泄露隐患逐渐提升,自2018年5月25日欧盟主导的数据保护法《通用数据保护条例》(GDPR)生效以来,监管机构总计对
2022-11-10 08:03:02
664
原创 未来数据库需要关心的硬核创新
分享嘉宾:刘冰冰 亚马逊云科技编辑整理:张了了 聚水潭出品平台:DataFunTalk导读:数据库经过了几十年的发展,目前已经是一项非常成熟的技术,然而随着当今互联网的极速增长,我们进入到云时代,企业亟需构建现代化的应用,因此数据库有了更大的挑战。今天结合当前时代的发展和趋势,分享未来数据库需要关注的硬核创新。今天的介绍围绕以下几部分展开:趋势——数据库自由和创新数据库硬核创新——云原生数据库数据库硬核创新——云原生数据库迁移利器演示——云原生数据库迁移利器问答--01 趋势——
2022-07-24 13:51:27
1196
原创 美团大脑百亿级知识图谱的构建及应用进展
分享嘉宾:张鸿志博士 美团 算法专家编辑整理:廖媛媛 美的集团出品平台:DataFunTalk导读:美团作为中国最大的在线本地生活服务平台,连接着数亿用户和数千万商户,其背后蕴含着丰富的与日常生活相关的知识。美团知识图谱团队从2018年开始着力于图谱构建和利用知识图谱赋能业务,改善用户体验。具体来说,“美团大脑”是通过对美团业务中千万数量级的商家、十亿级别的商品和菜品、数十亿的用户评论和百万级别的场景进行深入的理解来构建用户、商户、商品和场景之间的知识关联,进而形成的生活服务领域的知识大脑。目前,“
2022-07-23 19:32:17
829
原创 翟佳:高可用、强一致、低延迟——BookKeeper的存储实现
分享嘉宾:翟佳 StreamNative 联合创始人编辑整理:张晓伟 美团点评出品平台:DataFunTalk导读:多数读者们了解BookKeeper是通过Pulsar,实际上BookKeeper在数据库和存储场景都有着非常广泛的应用。BookKeeper是Pulsar的底层存储,Pulsar有着广泛数据入口,Pulsar跟Kafka及各类MQ(RabbitMQ、ACTIVEMQ)的较大区别是Pulsar是统一的云原生消息流平台,不但是分布式系统,而且做了存算分离,可以让用户在云的环境下,体验到云原
2022-07-22 14:38:15
630
原创 管正雄:基于预训练模型、智能运维的QA生成算法落地
分享嘉宾:管正雄 阿里云 高级算法工程师出品平台:DataFunTalk导读:面对海量的用户问题,有限的支持人员该如何高效服务好用户?智能QA生成模型给业务带来的提效以及如何高效地构建算法服务,为业务提供支持。本文将介绍:阿里云计算平台大数据产品答疑场景;基于达摩院AliceMind预训练模型实现的智能QA生成算法核心能力及背后实现原理;如何通过智能运维服务平台将算法能力输出,给业务提供一站式服务,优化答疑体验。主要分为以下几部分:背景介绍QA生成框架QA生成在业务场景中的应用总结与规划精
2022-07-21 17:13:43
1161
原创 云娜:从计算、存储角度,谈网易数据治理工具产品实践
导读:在公司内部,业务线经常面临数据有哪些、质量如何、是否可用、能产生多大价值的困惑,并且,随着数据量的增加,计算和存储资源面临瓶颈。本次将围绕数据治理重点关注的计算、存储等方面,分享数据治理的产品实践。通过分享,一方面可以了解当前业务线主要面临的待治理的数据问题;另一方面,从计算、存储等主要方面,了解数据治理需要重点关注的内容,同时,对数据治理的整体产品实践有宏观的认识,对内部业务线的数据治理提供针对性的建议。本次分享将主要包括以下几大方面:过往数据治理回顾当前治理痛点产品整体策略未来规划-
2022-06-20 15:04:52
314
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人