点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
概述
在大数据和人工智能迅速发展的背景下,数据的价值和数据交易成为学界和业界关注的热点问题。KDD 2025预讲会上的思辨围绕顶会论文写作、参会签证及数据价值等多个关键议题展开深入讨论。来自北京大学、中国科学技术大学、中国人民大学、北京邮电大学的一作们通过探讨数据如何衡量、技术壁垒、隐私保护和市场机制等关键话题,为观众提供了宝贵的见解和启示,助力大家在科研和实践中取得更大的突破。
点击 阅读原文 观看Debate精彩回放!
AITIME
01
对于初次投稿者,哪些策略可以提高论文接受率?
赖思奇:
KDD会议(知识发现与数据挖掘)偏重应用,类似于计算机界的“AI for Science”会议。团队之前提交了许多时空数据挖掘的创新任务。因此,建议初次提交KDD的研究人员,选择一些新颖的任务,并使用先进技术来解决,这样很可能会产生有趣的研究成果。这是我关于选题的一些建议。
对于需要提交论文的研究人员来说,关键在于优化模型。如果任务新颖并使用先进技术,优化过程会比较简单。然而,论文写作的重点在于构建框架,这是非常重要的。
随着ChatGPT等的推出,我们需要考虑如何充分利用这一大型语言模型,以便写出更优秀的作品。一些学者担心过度使用ChatGPT可能带来隐患,但如果正确使用,它能极大地促进我们的工作。我们不是让GPT代替写作,而是作为科研工作者,思考如何与ChatGPT对话和辩论,以产生更优秀的文章或提纲。在这个过程中,人的作用至关重要。通过有效利用这些大模型工具,我们可以显著加快写作过程。因此,建议大家学习如何充分利用这些工具。
徐榕荟:
论文中的图也非常重要。模型的主要框架图应该能够体现整个模型的逻辑和思想,同时在视觉效果上也要让人赏心悦目。好的框架图不仅能清晰传达模型的结构和思路,还能吸引读者深入了解论文内容。如果一篇论文的模型框架图设计得好,容易让读者认为这篇论文有潜力发表在顶级会议上。虽然内容的深度同样重要,但一个吸引人的框架图能激发读者进一步探索其内涵的兴趣。这是一个让我深有感触的点。
方雨晨:
KDD会议的文章与其他AI会议存在一些区别,抓住这些特点可以提升稿件质量。这些文章通常在任务设定上引入额外的数据或输入条件,对新输入进行特殊处理,使用先进技术,使研究更具创新性。在KDD上,这类文章较为常见,因为KDD更侧重于数据的探索和发现。
此外,写作和作图对于投稿顶级会议至关重要。一篇论文无论选题多么新颖,研究多么出色,如果叙述不佳、逻辑不流畅、图表设计不清晰,都会影响接收率。因此,建议多阅读同一实验室的文章,学习他们的图表设计和行文风格,这对提升写作和投稿质量非常有帮助。
AITIME
02
能否设计基础模型同时解决所有时空任务?
赖思奇:
很多时空任务现在都有基础模型来解决。例如,香港大学黄超老师提出的Urban GPT,清华大学李勇老师提出的UniST,以及华东师范大学杨斌老师提出的时空基础模型。这些模型基本上都是基于现有的提示和任务设计的。
那么是否可以像自然语言处理一样,将时空模型泛化到更广泛的任务领域,而不仅仅局限于传统的NLP任务(如摘要、分类、情感分析等)。例如,我现在从事的交通信号控制任务也可以应用类似的方法。时空领域实际上是非常开放的,不同种类的时空数据各具特色。要实现所有时空任务的泛化,目前看来是比较困难的。尤其是要泛化到超出训练数据领域的任务,难度依然很大。
徐榕荟:
目前还没有一个能够全面解决时空任务的基础模型,这确实是一个巨大的挑战。时空任务种类繁多,涉及交通、天气、海洋以及灾害预测等众多领域。要创建一个类似大型语言模型的时空基础模型,其泛化能力必须非常强,既要理解时间的变化和空间的转换,还需要掌握特定任务的领域知识。
这种广泛的泛化能力很难实现,因为目前的研究主要集中在单个具体领域的任务模型。虽然在时间序列建模上,已经有一些能够处理不同领域的模型,但是时空任务增加了空间信息的复杂性,因此更为复杂。如何解决时空任务的复杂性,是目前和未来一段时间内研究的热点方向。
方雨晨:
这是一个非常困难的任务。最近一些研究尝试将时空信息和轨迹结合,例如一篇论文将时空图视为二维空间,将轨迹视为时间序列,但这种方法未能充分挖掘两者的深层内涵。
时空数据处理中有多种任务,例如轨迹、信号灯、时空图等。每个任务包含不同的子任务,如分类、补全和预测,这些可以被视为不同的“语言”。最具挑战性的是如何统一来自不同数据源的信息。轨迹数据、时空图数据和交通信号数据的表现形式各不相同,统一表示非常困难。尽管如此,数据统一是可行的。但问题的关键在于如何有效地整合这些数据。例如,清华大学的一篇论文开发了一个城市级别的智能体,成功整合了多种数据源。
AITIME
03
如何更好地解决开会的签证问题?
张中健:
关于签证问题,由于北邮属于敏感高校,但参加国际会议并非十分困难。我们课题组去年有同学前往加拿大参加AAAI会议,前年也有同学去了美国。这主要取决于运气。
申请这种机会确实有些不确定,不能完全保证一定成功,也不能断言完全没有机会。在课题组中,每年都会有人前往美国或加拿大参加会议。因此,我认为参加国际会议值得一试。KDD会议将在明年8月举行,时间还算充裕,所以如果有机会,建议大家尝试申请。
郑淳元:
我之前参加了在西班牙巴塞罗那举办的KDD24,感觉确实收获很大,但由于是欧洲,所以大约只花了10天就通过签证了。由于国际形势,前往加拿大多伦多可能会比较麻烦,但我的一些同学已经前往加拿大参加NeurIPS会议,说明也不是完全没有机会。如果大家已经确认中稿或者想去参会,可以尽早安排签证预约。
丁海鹏:
近期国际形势变化多端,加拿大对中国公民签证发放有所收紧。目前申请成功仍是概率事件,主要取决于运气。
一个选项是申请旅游签证,在签证官询问时,诚实地说明主修专业为计算机科学,避免提及数据分析或人工智能等敏感领域。另一策略是先申请美国签证,这可能会提高获得加拿大签证的成功率,但不能保证成功。如果只能申请加拿大签证,可能需要经历耗时的背景调查,甚至申请强制令。
建议大家尽早提升签证等级。如果一切顺利,通过旅游签证前往加拿大,不提工作或会议,仅表示是去旅游。
AITIME
04
如何度量数据的价值,搭建数据交易平台?
张中健:
在数据交易和购买中,DB4的成功主要在于数据层面。在科研中,我们虽然花费大量精力设计和优化模型,但性能上限主要由数据的质量和多样性决定。近年来,数据领域的研究如“数据增强”和“概念理解”等非常活跃。
过去,人们主要通过模型解决问题,但现在研究重点逐渐转向从数据角度出发。数据是非常关键的一环。同时,建立数据交易平台时,也在考虑如何防止买方二次转卖数据以及如何保护数据产权等重要问题。这些都是构建一个安全且有效的数据交易平台必须解决的关键问题。
丁海鹏:
关于数据的价值,直观感受是数据交易涉及隐私和敏感信息的处理,即便对数据进行匿名化处理,如转换为某种ID,也依然显得有些奇怪。虽然我没有深入研究这一领域,但据我所知,目前接触到的数据大致分为两种:公开的Benchmark数据和公司内部的保密数据。
从当前研究的角度来看,数据的价值主要取决于两方面:一是数据的多样性,即能否从不同领域收集信息;二是能否通过这种数据更好地测试模型的鲁棒性,即在各个领域和方面都能有效。
对于个人工作而言,需要一些特异化的数据。例如,研究可扩展性时,需要规模庞大的数据,数据越大越好。目前虽然有些数据如IGB我们无法处理,但它们的价值随着技术的发展可能会增加。对于公司内部数据,需要做好保密工作,因为这些数据对实际工作的指导意义重大。
周宇:
数据的价值取决于供给和需求两个关键因素。从经济学角度看,如果数据对所有人开放,就会失去价值;相反,稀缺或新颖数据的价值较高。从需求角度看,从事多模态研究的企业对文图结合的数据集需求大,但这些数据对只做文本的小组价值有限。关键是如何量化这种价值,使数据交易平台自动化运行。
目前,尚未找到特别有效的解决方案,但基于经济学理论,构建简化的分析框架是技术上可行的,尽管尚处调研阶段。另一个需要关注的问题是隐私和数据的专利权问题。
我认为有效的解决方案是使用生成模型,然后对数据验证,或直接销售模型。保护数据的方法可以是给模型添加水印,或采用不可逆的模型使用方式,如同态加密技术。这种方式下,即使有人试图进行二次创作,由于缺乏密钥,也无法实现,从而只能盗取使用权,而无法获得所有权。
周川:
我也赞同应让市场来决定数据的价值。市场对数据价值有调控机制:有价值的数据定价较高,市场愿意买单;反之,缺乏价值的数据即使免费也可能无人问津。相信市场能自然进行有效调控。数据交易平台不适合个人或一些私人部门交易。目前,国家有官方渠道进行数据交易,从保护用户隐私和数据安全的角度看,通过官方渠道更为可靠。
郑淳元:
衡量数据的价值是一个重要问题。在大数据时代,许多模型的训练依赖大量数据。有些数据尽管有价值,但收集相对容易。技术壁垒往往来源于数据收集方式,不同的数据收集链路决定了收集数据的质量和多样性,数据越难收集,价值往往相对更高。我认为数据的价值以及交易方式和多种因素都有关。例如,医疗记录收集非常困难,并且涉及隐私,并且数据量有限,基本不适合在数据平台上进行交易。
本篇文章由陈研整理
往期精彩文章推荐
季姮教授独家文字版干货 | 面向知识渊博的大语言模型
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。
我知道你
在看
提出观点,表达想法,欢迎
留言
点击 阅读原文 观看Debate精彩回放!