高德π天才计划(研究型实习生)
如果你怀有务实的浪漫主义,认为科技会改变世界,立志于投身人工智能、大模型、计算机视觉、音视频生成、机器学习等技术领域,欢迎你的加入。
你将获得
与顶尖导师团队一起挑战世界级难题
与优秀的同行定义AI模型与空间智能的融合
丰富的技术落地场景,充足算力和数据资源
含金量高的课题,充足的探索空间,助力SOTA级作品
2025高德科研合作课题
欢迎学者浏览了解,期待联合学界科研团队开展关键技术攻关,聚焦大模型、人工智能、机器学习及地理空间智能等领域,共同培育具备顶级学术会议发表潜力的创新成果及可专利化核心技术。
如感兴趣请将简历及意向合作课题名称发送至gdtech@list.alibaba-inc.com,工作人员将尽快与您联系。
大模型及其应用研究
【课题1】下一代全双工端到端语音对话大模型
课题说明
随着人工智能技术的快速发展,语音对话系统在多个领域得到了广泛应用,如智能助手、客户服务、医疗咨询等。传统的语音对话系统通常采用分阶段处理的方式,包括声学模型、语言模型和对话管理模块,这不仅增加了系统的复杂性,还限制了其性能。本课题旨在研究和开发一种全双工端到端语音对话大模型,该模型能够直接从原始音频输入生成自然流畅的对话响应,同时支持实时交互,即全双工的语音到语音的对话系统。通过引入最新的深度学习技术和大规模预训练方法,我们期望构建一个更加高效、准确和自然的语音对话系统。
建议研究方向
用于端对端对话系统的Speech Tokenizer:搭建适合端对端语音合成建模的Speech Token,作为大模型的输入和输出,提升模型的泛化性和效果;
语音-语音大模型基座模型搭建:通过预训练、对齐、后训练、强化学习等手段提升对话内容的准确度、语音的自然度和表现力,搭建一套业界SOTA系统;
推理模型搭建:搭建适合文本/语音的多模态建模方案,提升语音对话大模型的推理能力。
【课题2】红绿灯调控的大模型应用研究
课题说明
针对城市交通拥堵问题,传统红绿灯配置非常依赖经验,缺少全局和实时的视角。本项目希望利用大模型的知识和深度推理能力,结合高德全局的红绿灯数据、实时和历史交通流量等信息,实现红绿灯调控的优化,提升路口通行效率,减少车辆等待时间与碳排放。
建议研究方向
交通数据的理解和推理:通过理解交通数据(包括红绿灯数据、交通流量等信息),推理出更高效的区域红绿灯配置。
【课题3】出行规划大模型
课题说明
大模型在通用领域的智能化水平持续提升,但是其在地图出行领域的应用仍然存在着比较大的挑战。地图出行领域的垂类域内数据量庞大,数据结构复杂,并且相关应用要求大模型具备强大的空间推理能力。现有大模型往往存在着虚构POI和空间理解关系错乱的问题,无法为用户制定个性化、复杂的出行规划。本课题聚焦出行规划应用,通过领域数据后训练、空间语义对齐、强化学习等技术路径,重点突破大模型的时空推理出错、地理信息幻觉和个性化适配问题,满足用户的复杂出行与日程规划需求。
建议研究方向
领域知识增强:设计复杂数据结构的对齐方法,通过大模型后训练实现异构数据增量式知识注入,提升大模型对地图数据的理解能力;
多目标强化学习:设计多目标奖励函数,在强化学习架构下提升大模型的时空理解能力与出行/日程规划能力;
个性化偏好建模:研发用户画像系统,通过交互式对话实现出行场景理解。
【课题4】端到端全场景融合定位技术
课题说明
在智能出⾏和空间智能时代,精准的定位技术是连接虚拟与现实的核⼼纽带。作为⾼德地图技术创新的重要⽅向之⼀,本课题旨在通过深度学习技术的全⾯赋能,推动定位技术从传统算法驱动向数据驱动、模型驱动的全新范式演进。我们希望构建⼀个⾯向全场景的统⼀融合⼤模型,实现技术升级和数据闭环,通过端到端深度学习模型化升级,构建⼀套全场景统⼀的定位技术框架,显著提升定位精度、鲁棒性和场景适应性;充分发挥⾼德地图的海量⽤户数据优势,构建数据驱动的定位技术闭环,形成“数据-模型-优化”的良性循环。系统性地解决当前定位技术⾯临的场景碎⽚化、误差累积以及复杂环境适应性不⾜等问题,为⽤户提供更加精准、稳定和智能化的定位体验。
建议研究⽅向
惯导定位模型:研究基于深度学习的IMU推演算法,通过端到端建模显著降低开环定位中的累积误差,提升⻓时间⽆外部信号情况下的定位稳定性。探索如何利⽤历史轨迹数据和多源传感器信息优化IMU参数估计,增强模型的泛化能⼒。
卫星定位模型:构建端到端的卫星定位算法,结合深度学习对信号传播特性进⾏建模,显著提升复杂环境(如城市峡⾕、⾼架桥)下的定位精度。重点优化⻋道级导航场景下的定位效果,为⾼德的⾼精地图服务提供强有⼒的技术⽀撑。
泛绝对定位技术:开发⾮卫星绝对定位技术,综合利⽤地磁、视觉特征、WiFi指纹等多源信息,在室内、隧道、地下停⻋场等丢星场景下实现⾼精度定位。探索跨场景迁移学习⽅法,使模型能够在不同环境中快速适应并保持⾼性能。
融合定位模型:构建多传感器融合的端到端定位模型,设计⾼效的特征提取与融合策略,实现全场景下的⽆缝切换与最优解算;研究如何在资源受限的设备上部署轻量化模型,兼顾性能与计算效率。
-
路⽹匹配技术模型:基于深度学习的离线路⽹匹配算法,为实时路⽹定位提供⾼质量真值参考。探索动态路⽹更新机制,确保模型能够适应不断变化的道路环境。
【课题5】基于大模型的广告重排算法的研究
课题说明
在信息流广告系统中,广告重排(Re-ranking)是推荐流程中的关键环节。广告重排的目标是在初步排序结果的基础上,进一步优化广告展示顺序,以平衡点击率(CTR)、转化率(CVR)、多样性、用户体验等多维度目标。传统的广告重排算法通常依赖于规则或简单的机器学习模型,难以充分捕捉复杂的用户行为模式和多目标之间的权衡关系。近年来,随着大模型的快速发展,其强大的表征能力和上下文理解能力为广告重排提供了新的可能性。本研究旨在探索如何利用大模型设计高效的广告重排算法,提升广告投放的整体效果。
研究目标
提升广告投放效果:通过优化广告展示顺序,提高点击率、转化率等核心指标。
增强用户体验:避免广告内容过于单一或重复,增加广告展示的多样性和相关性。
实现多目标优化:在CTR、CVR、广告主收益、平台收益等多个目标之间找到最佳平衡点。
推动技术创新:探索大模型在广告重排领域的应用潜力,为行业提供新的解决方案。
【课题6】大模型后训练优化技术在地图行为画像中的创新应用
课题说明
本课题聚焦大模型在地图行为分析场景的落地优化,用户画像在地图业务中具有核心战略价值,但在实际业务中存在大模型计算成本高的矛盾和大模型线上计算的延时挑战;期望重点研究四大后训练优化技术:混合精度量化压缩技术、动态结构化剪枝方案、多阶段蒸馏框架、基于强化学习的意图对齐。
建议研究方向
量化压缩技术:开发混合精度量化方案、设计自适应校准策略(EMA校准+温度调节)、验证量化感知训练(QAT)在轨迹预测中的有效性;
蒸馏技术优化:构建多教师蒸馏框架(轨迹预测教师+语义理解教师)、开发轨迹对比蒸馏损失函数等;
-
强化学习对齐:设计多维度奖励函数、构建基于PPO的策略优化器等。
时空大模型及其应用领域
【课题1】面向复杂交通路网路况预测的时空大模型研究
课题说明
时空大模型将前沿的多模态大模型设计思路和时空大数据融合,作为人工智能领域的前沿方向,在提升跨模态数据分析能力、优化决策支持系统及推动产业智能化转型等方面展现出显著潜力。其核心价值在于通过融合车辆轨迹、路况、车流量、文本、图像、视频等多模态数据,结合动态时空建模技术,实现对复杂场景的深度解析与预测。例如,在交通流量预测中,可以通过构建时空大模型,整合实时路况数据与历史交通影像,动态捕捉城市路网的时空演化规律。
建议研究方向
时空序列预训练大模型:通过高德超大规模时空数据,预训练基座大模型,用于下游任务(时空序列预测、时空推荐、轨迹分类等)。
多模态时空大模型:通过遥感影像、实景影像、社交媒体文本、拥堵聊天室中的知识,为时空序列预测任务引入更多额外信息,提升预测效果。
-
时序概率预测大模型:时空序列与图像/视频有较多相似点,将Diffusion Model、Flow Matching等图像/视频方法,引入到时序预测/时空预测中,从数据中学习复杂时空依赖关系的隐式分布,输出具有置信区间的概率预测结果,这种预测方式为风险评估(如极端天气预警)、鲁棒决策(如交通调度)提供了关键的不确定性量化支撑。
【课题2】基于时空大模型的生成式推荐系统研究
课题说明
随着大模型技术的快速发展,生成式推荐系统逐渐成为推荐领域的前沿方向。传统推荐系统依赖静态的匹配与排序策略,难以生成动态、个性化且可解释的推荐内容。本课题基于前期“高德特有行为序列的时空大模型预训练”研究成果,进一步探索大模型在生成式推荐中的应用,结合高德特有行为序列中的时空信息与多模态数据(如POI评论、图像),构建能够动态生成个性化推荐内容(如推荐理由、场景化建议)的智能系统。通过融合时空感知、多模态理解与生成式模型技术,实现从“匹配式推荐”向“生成式推荐”的跨越,为高德地图用户提供更自然、更智能的推荐体验。
建议研究方向
时空感知的生成式推荐模型架构设计
基于预训练的时空大模型(如时空Transformer),设计生成式推荐框架,支持根据行为、实时位置、时间上下文生成个性化推荐内容。
开发多模态生成技术,结合POI图像、文本评论生成图文并茂的推荐理由(如“该景点近期樱花盛开,距离您当前位置仅1.2公里”)。
动态上下文驱动的生成策略优化
构建用户实时上下文感知模块,动态融合地理位置、交通路况、天气等信息,生成场景化推荐(如雨天推荐室内场馆、通勤时段推荐最短路径)。
探索检索增强生成(RAG)技术,利用高德POI数据库实时检索增强生成结果的准确性与多样性。
可解释性与可控性生成技术
设计基于大模型的反思机制(Reflection Mechanism),对生成内容进行逻辑自检与合理性验证,避免生成冲突或错误信息。
开发可控生成技术,通过Prompt工程与参数约束确保推荐内容符合业务规则(如优先推荐合作商户、规避交通管制区域)。
端到端生成式推荐系统优化
构建从用户行为建模到生成内容落地的端到端流水线,优化生成速度与响应延迟。
研究轻量化生成模型蒸馏技术,支持移动端实时生成推荐内容。
【课题3】面向地图领域的文本理解与思维链推理大模型研究
课题说明
本课题聚焦地图垂类场景,结合多模态大模型技术与地图领域知识,通过 Query深度解析-垂类知识融合-思维链增强推理三层技术架构,突破地图领域文本理解与推理的瓶颈,推动POI/商品/内容搜索、出行问答等场景的AI技术落地。
建议研究方向
生成式通用query理解模型:通过大模型的理解和泛化能力,实现query结构化理解、纠错改写、城市意图等query分析任务的统一;
搜索结果质量评价:利用多模态大模型完成搜索结果质量打分;
相关性模型:对多种类别的召回结果(poi、商品、内容等)进行统一的相关性计算;
轻量化推理与实时部署:研究大模型蒸馏、推理加速等技术,实现轻量大模型在线实时推理。
人工智能与机器学习
【课题1】面向LGM的大规模实景地图众包渐进式构建与更新
课题说明
随着消费级图像/视频采集能力(主要是手机,也包括全景相机和无人机等消费级产品)的普及,通过众包获取大量用于实景地图构建的原始素材的基础设施能力是非常成熟了的。然而,目前还缺乏一种能够将这些海量数据运用起来构建实景活地图的算法和系统。对于导航/定位地图而言,主要需要从众包数据中提取场景中对导航和定位重要的少量的稳定的信息,实景地图包含显著更多的细节,端云交互可以以更高效的隐式表达进行(类似Nerual Map),场景中的对象的几何和外观都可能发生显著的变化,这是实现大规模实景地图的众包渐进式构建与更新的核心难点。本课题希望研发一套算法和系统,验证大规模实景地图的众包渐进式构建与更新技术路径,为高德从传统导航地图过渡到超级智能地图打下坚实基础。
建议研究方向
基于存量卫片的三维场景重建:研究以卫片这种低成本数据实现超大规模场景基础几何和外观的重建,以作为融合更精细数据的基础模型;
众包数据与基础模型的配准:研究高精细度众包数据与低精度基础模型的配准算法,重点突破跨视角配准精度问题,Nerual Map -> Image -> Mapping;
基于众包数据的局部精细化:研究通过高精细度的众包数据提高基础模型的精细度,以及刷新基础模型,保证在有更高精度观测的区域,基础模型的精细度和鲜度持续提升;
众包采集交互设计与激励机制:研究降低采集门槛的交互设计,以及更富有吸引力,更具有低成本,甚至可盈利的激励机制,推动众包数据持续上量。
【课题2】基于自回归的图像视频理解与生成
课题说明
近年来,自回归模型因其在序列数据建模上的天然优势,已在图像与视频生成领域展现出巨大潜力。诸如 Janus-Pro 通过大规模数据和模型的联合训练,实现了多模态统一理解与生成,以及 NOVA 提出的无向量量化自回归视频生成方法,都为当前技术水平带来了显著提升。与此同时,以 Visual Autoregressive Modeling (VAR) 为代表的新型范式,通过多尺度预测(Next-Scale Prediction)显著提升了生成效率与质量,并在图像生成任务中首次超越扩散模型(如 DiT),但在以下几个方面仍面临挑战:
多模态信息融合:图像、视频以及文本等多模态数据的统一处理尚未形成成熟的理论体系,如何高效整合各类信息以实现更精准的理解和生成,是当前技术发展的瓶颈。现有自回归模型(如VAR、NOVA)大多专注于单模态生成,难以实现视觉与文本的联合推理与生成,缺乏对多模态指令的灵活响应能力。
高分辨率图像、视频生成与长时序建模一致性:高分辨率图像和视频不仅要求全局结构连贯,还需要细腻的局部细节。在生成过程中,如何同时捕捉长程依赖信息和恢复局部细节,是当前模型面临的重要难题。同时,视频生成要求在长序列内保持时序连贯性和语义一致性,但目前模型在捕捉长距离依赖和细节恢复方面存在不足。
采样与生成效率:传统视频自回归方法依赖逐帧生成或向量量化,如VQ-VAE,导致计算复杂度高、时序连贯性差,难以支持高分辨率图像或长视频生成。高质量的图像与视频生成通常需要大量计算资源,如何在保证生成效果的同时提升效率,依然是一个亟待突破的问题。
建议研究方向
多模态自回归统一架构设计:构建统一的多模态生成框架,实现图像、视频及文本等信息的协同融合。借鉴 VAR-GPT 的“Next-Token理解 + Next-Scale生成”范式,设计专门针对高德地图中人地文本、视觉的跨模态联合推理机制,利用地理位置信息和丰富的视觉数据,提升生成任务的针对性和精准度。
时序一致性与细节优化:针对视频生成中存在的时序连贯性和局部细节恢复问题,设计专门的时序约束模块或注意力机制。结合 Next Scale Prediction 思想,在初步捕捉全局结构的基础上,进一步细化局部细节,确保生成序列在语义和视觉上的自然流畅。特别是利用高德地图提供的高精度城市与风景数据,探索专门针对复杂场景细节增强的改进方法。
针对高分辨率生成中像素点急剧增加带来的计算瓶颈,研究高效采样与并行解码方法,降低计算复杂度,提升生成速度。同时,探索 NOVA 所采用的无向量量化策略在视频生成中的扩展应用,通过避免向量量化过程,直接实现更高质量的细节还原。结合高德地图丰富的人地数据优势,设计针对城市、风景及人像等特定场景的定制化训练策略,提高数据利用效率和模型泛化能力。
【课题3】图像以及视频生成的应用和研究
课题说明
图像生成、视频生成、图像视频编辑以及可控生成技术成为内容创作和编辑、广告素材投放的重要能力。这些技术的应用使平台和商家能够充分利用AI智能创作的能力,可以根据用户的特性,生成个性化的素材或者内容,高效地产出多样性的视觉效果,从而带来了巨大的商业价值。
建议研究方向
图像可控生成(多条件生成/组合生成/文字生成/海报生成)、风格迁移、可控图像编辑等;
视频生成的SFT+RL范式的训练、视频生成的效果(高清,长视频)的训练、视频理解(densecaption)等;
自回归统一的理解和生成模型
生成模型的加速采样方法、生成模型与人类反馈的对齐(图像/视频生成效果的reward模型)等。
【课题4】多模态大模型的训练和推理研究
课题说明
多模态大模型旨在融合视觉和文本数据,实现跨模态理解与生成。通过共同训练图像和文本,提高模型在图像描述、图文匹配等任务中的表现。该技术具有广泛应用潜力,有助于实现更智能化的人工智能系统。
建议研究方向
多模态训练:通过大规模图文数据进行对齐训练。
推理增强:提升多模态大模型的Reasoning能力。
-
模型加速:利用模型设计、量化压缩技术提升多模态大模型的训练和推理加速。
【课题5】面向多任务垂类场景的多模态大模型
课题说明
多模态视觉文本大模型在内容理解与创作、智能编辑、自动化和效率提升等方面拥有着巨大的潜在商业价值。然而,现有的多模态大模型在处理复杂任务以及垂类任务上时仍存在细节感知能力弱、逻辑推理错误、生成结果不稳定、推理成本高昂等问题,一定程度上阻碍了模型的应用落地。本课题旨在面向多任务视觉内容理解的多模态大模型展开研究,包括提升多模态大模型的细节感知、垂类场景感知、逻辑推理、推理效率等关键能力。
建议研究方向
多模态预训练:通过大规模图文预训练对齐图像和语言特征提升泛化性;
垂类任务微调:通过构建垂类多模态理解任务,提升模型对垂类场景的感知能力以及逻辑推理能力;
垂类知识库构建:通过构建垂类知识库,提升模型对垂类知识的理解能力;
多模态知识蒸馏:通过将训练好的多模态大模型,蒸馏至更小的模型,提升推理效率,降低推理成本。
【课题6】基于多模态大模型的创意优选和评估机制的研究
课题说明
随着广告、内容创作和营销领域的快速发展,创意内容的质量直接决定了用户参与度和商业转化效果。然而,传统创意优选和评估方法主要依赖人工经验或单一模态(如文本或图像)的数据分析,难以全面捕捉用户对多模态内容(如图文结合、视频、动态交互等)的真实反馈。近年来,多模态大模型的兴起为这一领域提供了新的技术手段。这些模型能够同时处理文本、图像、音频、视频等多种模态数据,并通过跨模态理解生成高质量的内容评估和优化建议。
建议研究方向
创意优选算法:通过自动化算法快速筛选出最具潜力的创意方案。
创意质量评估:结合多模态数据和高德特有行为,全面评估创意的实际效果。
个性化创意算法研究:确保创意内容符合用户兴趣和偏好,提高点击率、转化率等关键指标。
推动技术创新:探索多模态大模型在创意领域的应用边界,为行业提供新的解决方案。
【课题7】基于大模型与强化学习的语音助手NLU与反思机制研究
课题说明
随着业界AI技术的快速发展,语音助手正逐步引入大模型(LLM)与工具调用(Tool Use)相结合的能力,以实现更复杂的任务处理。例如,结合实时导航工具(如地图API)、交易工具(如支付接口)、行程规划工具等,语音助手能够在单次对话中完成多种任务的动态组合调用,从而满足用户的复杂需求。本课题致力于将大模型(LLM)和强化学习(RL)方法相结合,优化高德地图语音助手的自然语言理解模块,增强其在复杂对话环境下的意图理解与自检能力。通过引入“大模型反思机制”和先进的RL训练范式(如DPO、GPRO),力图实现更自然的语音交互、更精准的路线建议,以及更灵活的异常处理(如交通事故绕行、顺路搜索等)。此外,结合工具调用技术,语音助手可以动态调用多种外部工具(如实时交通监控工具、POI数据库、交易工具、日程安排、信息检索等),实现从语音输入到任务完成的全流程闭环,最终为用户提供更高效、智能的服务体验。
建议研究方向
1.NLU模块的强化学习优化:
利用DPO(Direct Preference Optimization)或GPRO(Global Policy Regularization Optimization)等强化学习方法,优化语音助手的意图识别与上下文理解能力;
通过用户反馈(如用户点击、任务完成率等)构建奖励机制,持续提升语音助手对复杂指令的理解与响应能力。
2.反思机制的构建与优化:
引入大模型反思机制(Reflection Mechanism),使语音助手在生成响应前进行自我检查与修正,避免语义冲突或逻辑错误;
结合多模态数据(如POI信息、突发事件、交通路况、语音指令),实现对话内容的自洽性评估与动态调整。
3.工具调用与任务分解:
设计多工具调用框架,使语音助手能够动态组合调用地图API、支付接口、POI数据库等工具,完成复杂任务(如地点推荐+导航+交易+日程安排);
探索任务分解与多步推理技术,提升语音助手在多轮对话中的任务规划与执行能力。
【课题8】面向高德LBS场景的全双工语音交互关键技术研究
课题说明
随着语音交互技术的快速发展,用户对语音助手的实时性与交互自然性提出了更高要求。传统语音助手大多采用半双工交互模式,用户需等待助手完成语音输出后再进行下一轮对话,难以满足用户在复杂场景(如驾车导航、突发事件处理)下的实时交互需求。全双工语音技术通过实时语音处理与交互策略优化,允许用户与助手同时说话、自由打断,显著提升交互效率与自然性。
本课题致力于研究全双工语音交互的关键技术,包括实时语音活动检测(VAD)、流式语音识别(Streaming ASR)、动态打断检测(Barge-in Detection)与交互策略规划(Interaction Planning)。通过引入端到端语音大模型与强化学习优化方法,提升智能助手在复杂场景下的实时响应能力、打断处理准确性与多轮对话连贯性,最终为用户提供更高效、自然的语音交互体验。
建议研究方向
实时语音活动检测(VAD)与动态打断技术优化:
构建端到端的神经网络VAD模型,优化低延迟、高准确性的语音端点检测能力;
引入强化学习(RL)方法优化打断策略,根据用户意图预测与对话上下文动态调整响应时机,提升交互自然性。
流式语音识别(Streaming ASR)与端到端语音理解模型研究:
设计基于Transformer或Conformer的流式语音识别架构,降低端到端识别延迟(目标≤200ms),满足实时交互需求;
探索语音识别与语义理解的联合优化模型(如E2E ASR-NLU),提升实时语音交互中的语义理解准确性。
全双工交互策略优化与多轮上下文管理:
研究全双工交互场景下的对话状态跟踪与动态上下文管理技术,确保多轮对话的连贯性与语义一致性;
利用RL优化全双工交互策略,动态管理语音助手的响应节奏、主动询问与被动倾听策略,提升用户体验。
如感兴趣请将简历及意向合作课题名称发送至gdtech@list.alibaba-inc.com,工作人员将尽快与您联系。