【Reading Notes】（8.1）Favorite Articles from 2025 January-CSDN博客

在这里插入图片描述

文章目录

1、January
4、April
5、May
6、June
7、July
8、August
9、September
10、October
11、November
12、December

1、January

极越之后，中国车市只会倒下更多人（2025年01月01日）
- 在这波枪林弹雨中，合资品牌中最先岌岌可危的便是水土不服的法系，之后便是坚持性价比路线的韩系、美系，接下来主打经济低耗的日系会遇到大麻烦，德系因为BBA与大众的存在，则是血量最厚的存在，可仍远不复当年之勇。
上海微软大裁员，赔偿达N+8，12年老员工感叹：拿20个月工资走人，每月3000失业补助，也是种幸福（2025年01月01日）
- 裁员的原因呢，一方面是大环境的变化，另一方面是因为 AI。而受AI影响，从去年到现在，硅谷裁员超40万。
拆分完成！华为车BU或今年1月启动运作（2025年01月01日）
- 华为智能汽车解决方案业务单元（以下简称“车BU”）的分拆工作即将完成，其资产将注入深圳引望智能技术有限公司（以下简称“引望”），计划于2025年元旦启动独立运作。
- 从2023年11月官宣要独立发展，到长安、赛力斯投资敲定，再到如今华为车BU即将正式独立运作，1年左右时间，一个全新的超级供应商即将诞生。
- 第一种，如智驾算力平台、激光雷达等，部分车企也会选择华为零部件，比如飞凡R7部分车型搭载了华为AR-HUD。
- 第二种是华为HI（Huawei Inside）模式。选择乾崑智驾和鸿蒙座舱两个解决方案
- 第三种则是华为智选车模式，即鸿蒙智行
- 华为计划在明年推出智能驾驶系统ADS的4.0版本，该版本将引入“一段式端到端”技术。
英伟达2025祭出「迷你大脑」，雷神「Thor」剑指千亿机器人市场！（2025年01月02日）
- 机器人市场的转变是由两项技术突破推动的：一是AI生成模型的爆炸式增长，二是利用模拟环境在这些基础模型上训练机器人的能力。
10秒极速出片！还有超多特效模版，国产视频模型又整新活了（2025年01月02日）
- 爱诗科技
- 国产AI视频模型PixVerse继上次席卷全网的万物皆可毒液之后，它们又火速更新了3.5版本。
- 长发生成器
- 不过，对于类似体操这种肢体动作非常复杂的运动，目前还是效果不太好，不过这是当前模型都存在的情况
- 首尾帧模式
- 它们也支持对口型，可以让视频中的人物或者卡通形象配合音乐演唱
- https://app.pixverse.ai/
聊一聊大模型六小虎和四大厂的2024！
- 英伟达逆袭成“斗帝”，B200是大招（不过产量低）
- 下沉：中国大模型备案多达252款，超一半下沉到行业
- 活下去：六小虎定位愈发清晰，努力留在牌桌上
- 开源：资源限制倒逼出国产之光反超Llama（deepseek v3），2个月、2000张H800卡，就搞出了GPT-4o级别的模型。
- 百度文心一言：日均模型调用量15亿，用户规模4.3亿
- 阿里通义千问：将开源进行到底，夸克称AI搜索一霸
- 腾讯混元：发力多模态，类Sora视频模型开源
- 字节豆包：日活750万，断层领先，产品全系覆盖
- FSD全自动驾驶：马斯克跑通大模型Robotaxi
- 机器人or狗？
- 视频生成和世界建模
DeepMind天才科学家疑抑郁自杀！41岁SuperGLUE之父英年早逝，AI圈悲痛不已（2025年01月03日）
- 谷歌DeepMind研究科学家Felix Hill，于2024年12月5日英年早逝，年仅41岁。
- Felix是一位学术成果颇丰的AI学者，谷歌总引用量为19680，参与创建了自然语言理解基准 GLUE 和 SuperGLUE。
电动汽车“原地掉头”技术解析（2025年01月03日）
宣布了！理想汽车2025年实现L3自动驾驶~（2025年01月04日）
- 2024年12月25日-27日，理想汽车连续三天推出“2024理想 AI Talk”，分享了对人工智能的最新思考，以及包含智能驾驶和理想同学在内的人工智能技术的最新进展，并宣布基于自研基座大模型Mind GPT 的理想同学从车机进入手机，App已于12月27日全量上线。此外，理想汽车宣布OTA 7.0版本车机系统将于12月底全量推送AD Max用户，新增AI推理可视化、高速端到端等功能，并实现Mind GPT-3o、Mind Diffusion V2.0的能力升级。
- L3有监督智能驾驶，不是L2辅助驾驶的延续，而是L4自动驾驶的先导
Robo周报：比亚迪、理想、广汽等推进机器人研发/ 传禾赛裁员数百人/英伟达将推全新机器人芯片…（2025年01月05日）
- 比亚迪第十五事业部成立了一个专门的团队研发具身智能，事业部最高负责人罗忠良直接主管该项目。
- 李想：理想 100% 会做人形机器人——概率上肯定是100%，但节奏不是现在。
  李想表示，如果理想连L4级自动驾驶的汽车都无法解决，那么如何解决更复杂的？因为车是个无接触机器人，而且道路是标准化的，包括道路上的提示和参与者都是标准化的，而且每个人都受交通规则的训练，我觉得这已经是最简单的机器人了，如果车没法实现，其实其他人工智能机器人，还是非常有限的。
- 英伟达将于2025年上半年推出最新一代人形机器人芯片Jetson Thor。
2025全球汽车销量增1.7%，电动汽车或爆增30%（2025年01月06日）
- 展望2025年之后，电动化的发展速度仍存在诸多“可预见的不确定性”，尤其是在充电基础设施、电网电力、电池供应链、全球采购趋势、关税贸易壁垒、技术进步的速度以及政策制定者为推动从化石燃料向电动替代品转变所需的支持力度等方面。
2024年，汽车行业十大破圈热词（2025年01月07日）
- 价格战升级，值得一提的是，据国家统计局发布的最新数据，1月—11月，全国汽车制造业利润同比下降7.3%，远高于全国规模以上工业企业利润总额4.7%的同比降幅。
- 小米汽车来了，雷军坦言，小米SU7首销期有60%的“天使单”，所谓“天使单”通常是指，在新车发布后，品牌还未进行大规模宣传推广，也缺乏大量用户口碑沉淀的初期阶段，仅凭品牌影响力、产品理念及前期有限信息，就果断下单购买的订单。
- 新势力淘汰赛加剧
- 华为集齐“四界”
- 吉利战略调整
- 比亚迪顶替上汽成中国销冠
- 智驾元年到来
- 本田、日产开启重组谈判，2024年1至11月，在中国市场本田汽车终端累计销量同比下降30.70%，日产汽车终端销量下滑36.2%。
- 德国汽车业大裁员
蔚来ET9数字架构解析（2025年01月07日）
- 在今年7月的NIO IN活动上，蔚来宣布自研 “神玑 NX9031”智能驾驶芯片流片成功，并推出自研“SkyOS · 天枢”整车全域操作系统
- 数字架构：汽车智能化的基石
- 强芯铸魂、软硬一体的先进架构
- 蔚来ET9将在12月21日的 NIO Day 2024正式上市，并已开启预售，预售价格为80万元。随着新车上市的临近，蔚来ET9更多领先科技将逐步亮相，值得期待。
微软打响裁员第一枪！AI智能体引爆2025失业潮，硅谷巨头停招程序员（2025年01月09日）
自2022年之后，裁员最猛的公司当属英特尔、特斯拉。这两家公司分别在去年裁掉了1.5万和1.4万人，成为近年来裁员数字最高的雇主。
开心麻花扎的心，被讯飞星火修复了（2025年01月09日）
小米千万大奖颁给汽车：超级电机，但很AI（2025年01月09日）
- 这次的年度大奖，再次花落小米汽车部，颁给了小米自研超级电机V8s团队。
- 二等奖：小米SU7 Ultra原型车核心技术、面向用户安全的车身结构技术、双区洗衣机核心技术
- 三等奖：上出风空调关键技术、小米声音大模型、小米SU7先进能量管理技术、小米金沙江电池、新一代智能助手“超级小爱”关键技术
2024年AI大模型回顾！（2025年01月09日）
- 英国程序员西蒙·威利森（Simon Willison）最近两年非常出名，他的个人网站有很多文章，介绍 AI 的最新进展。本周，他发表了很长一篇的2024年大模型回顾，非常精彩。
- 2023 年的总结在这里：https://simonwillison.net/2023/Dec/31/ai-in-2023/
- GPT-4 垄断被全面打破
- 一些 GPT-4 级模型可以在笔记本电脑上运行
- 由于竞争和优化，大模型服务的价格崩盘
- 多模态视觉已经变得常见，音频和视频模型开始出现
- 语音和实时摄像头模式正从科幻小说变成现实
- 一个提示词做出一个 APP，已经很普遍了
- 对最佳模型的普遍访问仅持续了短短几个月
- AI 「智能体」可能还有点远
- 评估真的很重要
- Apple Intelligence 很糟糕，但 MLX 库很出色
- 正在崛起的「推理」模型目前最好的 LLM 来自中国，训练成本不到 600 万美元？
- 环境影响变好了，但也在变得越来越严重
- 合成训练数据效果很好
- LLM 不知何故变得更难用了
- 知识分布不均匀
- LLM 需要更好的批评
好家伙，海螺直接拍了个AI版的《教父》（2025年01月10日）
- MiniMax家的海螺AI最近推出的新功能——主体参考，你只需要上传需要的人物图片，它就可以自动识别出人物，让他们听你的话，帮你演戏！可以立刻自己上手做电影
- hailuoai.com/video/create
Video Ocean V2.0：视频质量全面升级，依旧完全免费，薅羊毛的快乐等你来！（2025年01月13日）
- 对视频质量进行了全面升级：超级真实的画质、运动幅度显著提升、风格更加多样
- video.luchentech.com/zh-CN
快手可灵凭什么频繁刷屏？揭秘背后三项重要研究（2025年01月14日）
- Wang Q, Shi Y, Ou J, et al.Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content. arXiv preprint arXiv:2410.08260, 2024.
- 代码地址：https://github.com/KwaiVGI/Koala-36M
- 论文链接：https://arxiv.org/abs/2410.08260
- 项目主页：https://koala36m.github.io/
- 数据集链接：https://huggingface.co/datasets/Koala-36M/Koala-36M-v1
- Yin Y, Zhao Y, Zheng M, et al. Towards Precise Scaling Laws for Video Diffusion Transformers. arXiv preprint arXiv:2411.17470, 2024.
- Huang Y, Zheng W, Gao Y, et al. Owl-1: Omni World Model for Consistent Long Video Generation[J]. arXiv preprint arXiv:2412.09600, 2024.
小红书一夜冲爆美区榜首，1.7亿TikTok「难民」疯狂涌入！（2025年01月14日）
- 小红书通常被歪果仁看作是「中国版Instagram」。据统计，小红书去年在全球有3亿月活用户。
2024年自动驾驶行业热点技术盘点（2025年01月14日）
- 城市NOA（Navigate on Autopilot）：迈向精细化驾驶的关键路径
- Robotaxi：商业化的先锋力量
- 端到端方案：简化系统的全新尝试
- 重感知轻地图：摆脱地图依赖的尝试
- 纯视觉方案：极简技术路径的探索
2024美国车市：混动超纯电，小车领涨，电车疯狂打折（2025年01月14日）
实现真正的自动驾驶，需要大模型真的上车？（2025年01月15日）
- 车路云网联智能的概念在车上很难实施，但是在飞行器上，毫无疑问，如果飞行器要起飞，就要向空管申请航道，批准后才能升空。
- 光靠动力电池的话，低空飞行器在空中的滞空时间只有20分钟，如果加上燃料电池，现在已经可以做出滞空时间高达2小时的机型。
一文了解自动驾驶技术未来发展趋势！（2025年01月15日）
业内普遍认为，汽车产业新能源是上半场，智能化是下半场，自动驾驶则是终极目标。
MiniMax开源4M超长上下文新模型！性能比肩DeepSeek-v3、GPT-4o（2025年01月15日）
- 开源模型上下文窗口卷到超长，达400万token！
- 基础语言模型 MiniMax-Text-01、视觉多模态模型 MiniMax-VL-01。
- 输入每百万 token0.2 美元，输出每百万 token1.1 美元。
小红书为何让歪果仁上头？推荐算法超牛，2篇核心论文揭秘（2025年01月16日）
- Zhang C, Wu S, Zhang H, et al. NoteLLM: A Retrievable Large Language Model for Note Recommendation[C]//Companion Proceedings of the ACM on Web Conference 2024. 2024: 170-179.
- Huang Y, Wang W, Zhang L, et al. Sliding spectrum decomposition for diversified recommendation[C]//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021: 3041-3049.
- 该论文主要是提出了滑动频谱分解（SSD）方法，以解决小红书中「多样化信息流推荐」的问题。并且文中也提出了计算嵌入向量的策略CB2CF，以应对实际推荐场景中的长尾效应。
国产AI视频爆火全球，歪果仁集体起立！快到震撼，惊爆价低至4分（2025年01月16日）
- 去年7月底 Vidu 1.0上线时，单片段的实测推理速度就跑进30秒以内，成为全球最快。
- 史上最快AI视频来了！Vidu 2.0一上线，就在全球用户中掀起海啸。10秒生成视频，1秒低至4分钱，这家中国公司再次用效果、速度和价格震惊了海内外。
- 行业平均价格0.6元/s，Vidu平均价格0.2587元/s。
- 参考生视频，解锁多种花样玩法
- 首尾帧过渡丝滑
- 镜头运动，表现佳
支付宝1.16 P0级事故，彻底爆了！（2025年01月18日）
- P0就是最高级别，相当于"重症监护级别"
- 就在昨天（1月16日）下午2点40到2点45，短短5分钟时间里，支付宝上所有交易都自动打了八折！说白了就是，你原本要付100块钱，系统只收你80
- 这5分钟简直就是"数字红包雨"现场啊！
宇树机器人上演弯道超车(ren)，歪果仁质疑是特效（2025年01月17日）
- 宇树G1机器人是进行“仿生·灵动升级”后，才出来给大家拜早年的。
- 有网友感慨道，这再发展发展，完全可以担任马拉松配速员的职责。
周受资：将尽全力确保TikTok平台继续繁荣！（2025年01月18日）
- 短视频社交媒体平台TikTok首席执行官周受资 17 日通过 TikTok 发表视频讲话说，将尽全力确保TikTok平台未来继续繁荣。
TikTok昨天关服，美国又想禁小红书了？（2025年01月20日）
小红书AI翻译加急上线，网友评论区玩起Prompt，背后大模型被扒出（2025年01月20日）
- 有网友猜测，这是因为它用了GPT的数据做蒸馏，所以出现了幻觉。
万字浅谈自动驾驶系统组成（2025年01月20日）
- 自动驾驶系统的基石 —— 传感器模块
- 视觉之眼 —— 摄像头
- 距离感知大师 —— 激光雷达
- 全天候卫士 —— 毫米波雷达
- 近距离助手 —— 超声波传感器
- 运动感知先锋 ——IMU 与位置指引者 ——GPS，Inertial Measurement Unit，主要用于测量车辆的加速度和角速度，通过这些数据，自动驾驶系统可以实时了解车辆的运动状态，包括车辆的加速、减速、转弯以及姿态变化等信息。IMU 也有其局限性。由于噪声、漂移和误差等因素的影响，IMU的数据需要经过滤波和校准才能使用。此外，IMU无法直接提供绝对的位置信息，只能提供相对于某个初始状态的位置变化。因此，在许多应用中，IMU通常会与其他传感器（如GPS）结合使用，以提高定位的准确性和可靠性。
- 自动驾驶系统的 “智慧大脑”—— 感知与决策模块
- 感知模块：环境的解读者（目标检测与分类、语义分割与实例分割、3D 检测与多目标跟踪）
- 决策模块：行动的指挥官（行为决策与路径选择、交通规则遵守）
- 自动驾驶系统的 “导航仪”—— 定位与建图模块
- SLAM：实时定位与建图专家
- HD Map：高精度地图的力量。High Definition Map 其精度可达厘米级，并且包含了极为丰富的环境信息，如详细的车道线信息，包括车道的数量、宽度、曲率、坡度等，以及交通标志、交通信号灯的准确位置和含义，道路边界、隔离带、路沿石等细节信息。
- GPS/IMU 融合：精准定位的保障。在 GPS 信号良好时，利用 GPS 数据对 IMU 的误差进行校正，确保定位的准确性；当 GPS 信号受阻或丢失时，IMU 则可以依靠自身测量的数据，继续为车辆提供相对准确的位置和姿态信息，保证定位的连续性。
- 自动驾驶系统的 “规划师”—— 规划模块
- 全局规划：绘制长途路线。全局规划常常采用 Dijkstra 算法或 A算法来寻找最优路径
- 局部规划：应对实时变化。局部规划通常采用基于采样的方法（如快速探索随机树算法，RRT）、基于优化的方法（如模型预测控制，MPC）或基于搜索的方法（如 Dijkstra 算法和 A * 算法的变体）来生成可行的轨迹。这些算法会在满足车辆动力学约束（如车辆的最大加速度、最大转向角度等）和交通规则的前提下，搜索出一条最优的局部行驶轨迹。
- 自动驾驶系统的 “执行者”—— 控制模块
- 纵向控制：速度的掌控者。常采用比例 - 积分 - 微分（PID）控制、模型预测控制（MPC）等先进算法。
- 横向控制：方向的指引者。横向控制常采用滑膜控制、模糊控制、神经网络控制等方法。
- 自动驾驶系统的 “沟通桥梁”—— 通信模块
- V2X：万物互联的纽带。 Vehicle-to-Everything，意为车对万物通信，它涵盖了车对车（V2V）、车对基础设施（V2I）、车对行人（V2P）等多种通信方式。行人可以通过携带的智能设备（如手机）与车辆进行通信。
- 5G 与 LTE：高速通信的支撑。Long Term Evolution，4G技术的主流标准
- 自动驾驶系统的 “交互窗口”—— 用户界面模块
- HMI：人机交互的界面。Human-Machine Interface
- ADAS 等辅助系统：驾驶的得力助手。Advanced Driver Assistance Systems，如 AEB（自动紧急制动）、ACC（自适应巡航控制）、LDW（车道偏离预警）等，为驾驶员提供全方位的驾驶辅助。APA（Automatic Parking Assist）自动泊车辅助系统，AVM（Around View Monitor）全景监控系统，通过多个摄像头为驾驶员提供车辆周围 360 度的全景视图，有效消除视觉盲区，无论是在狭窄的道路上行驶，还是在拥挤的停车场中穿梭，都能让驾驶员清晰地了解车辆周围的情况，提高行车安全性。
150亿造车新势力，宣布停运破产（2025年01月20日）
- 造车8年，滑板底盘造车鼻祖Canoo，刚在主页更新了公告，宣告公司已申请破产，并立即停运。
- 辉煌时，这家公司云集宝马、福特、Uber等巨头的前高管，仅4年就在纳斯达克上市，市值一度高达150亿。
- 创始人斯特凡·克劳斯(Stefan Krause)和乌尔里希·克兰茨（Ulrich Kranz），都是车圈老炮，还都出身宝马。克劳斯擅长财务，曾经担任过宝马和德意志银行的首席财务官；克兰茨曾是宝马i3系列车型的项目主管，被称为“宝马i系列之父”。而且两人都曾是贾跃亭的手下干将，担任过法拉第未来（FF）的CFO和CTO。
- 所谓滑板底盘，就是一种专门为电动车设计的一体化底盘架构，将电池、传动系统、悬架等汽车部件，直接整合到一个通用底盘上。其优势在于取消机械连接，车舱可以保留更多空间，而且同一个底盘，能够灵活适应不同大小的车辆类型，从而提升整个汽车产品系列的可扩展性。
25年1月理想MEGA有望首次月销超小鹏X9（2025年01月21日）
DeepSeek开源o1击毙OpenAI，强化学习惊现「啊哈」时刻！网友：AGI来了（2025年01月21日）
- 继DeepSeek V3之后，DeepSeek再次官宣了全新推理模型——DeepSeek-R1。让所有人为之震惊的是，新模型直接与o1打平手，关键还是开源版的o1。
- DeepSeek-R1在强化学习阶段之前，没有进行监督微调SFT，便在性能上刷新SOTA。对于预训练大模型而言，监督微调（SFT）是极为关键甚至必不可少的训练技巧。SFT就是先用大量人工设定标准的数据进行训练，之后再通过强化学习进一步自我优化。以往在提升模型性能时，依赖于大量的监督数据。
- https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
- Guo D, Yang D, Zhang H, et al. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning[J]. arXiv preprint arXiv:2501.12948, 2025.
- DeepSeek此次共推出了两款推理模型：DeepSeek-R1-Zero和DeepSeek-R1。
- 此次，R1震惊四座的表现，让强化学习算法再次破局，甚至有网友表示，「2025年或许就是RL之年」。
- 提升通用能力：目前，DeepSeek-R1在函数调用、多轮对话、复杂角色扮演和JSON输出这些任务上，能力不如DeepSeek-V3。接下来，团队计划研究如何借助长链推理（CoT），提升在这些领域的任务处理能力。
特朗普一上台，拜登AI禁令被秒撤！硅谷科技「壕客」齐聚就职典礼现场（2025年01月21日）
- 在特朗普第二次就职典礼上，扎克伯格、贝索斯、皮查伊和马斯克坐在显要席位上，据报道比特朗普的内阁成员还要靠前。
特朗普发表就职演说将对新能源汽车产业影响几何？（2025年01月21日）
AI教父辛顿开年访谈：中国AI追近美国靠人才教育和自研（2025年01月21日）
- 要完全阻止信息传播几乎是不可能的。但想通过封锁信息来阻止他们发展 AI 是不现实的。新想法的产生有其特定的时代背景。经常会发生这样的情况：当一个人提出新想法时，差不多同一时期，其他人也会独立想到类似的东西，因为他们共享着同样的时代精神。除非你能改变整个时代精神，否则就无法阻止新想法的产生。即使保密，几年后其他人也会想到同样的东西。
- 为什么阿拉巴马州不能拥有核弹？因为制造核弹需要裂变材料，而获取裂变材料极其困难，需要大量时间和能源。有了裂变材料后，制造核弹反而是相对容易的。这就是为什么政府严格控制裂变材料，你不可能在 eBay 上买到。这也解释了为什么小国家没有核弹。如果你公开发布这个模型的权重，任何人都可以对其进行微调，用于各种危险的目的。这就是为什么我认为公开发布这些大模型的权重是一个疯狂的决定，因为这些权重本应该是我们控制恶意使用的重要手段。但现在 Meta 已经这么做了，其他公司也纷纷效仿。
- 我后悔没有更早意识到它的危险性，但我不后悔我所做的工作。人工智能的发展是不可避免的，因为国家和公司之间的竞争太激烈了。我们应该把精力集中在如何安全地发展它上，而不是试图减缓它的发展。
- 主持人：爱因斯坦曾说过，如果他早知道原子弹的后果，他宁愿烧掉自己的手。你有类似的感觉吗？Geoffrey Hinton：其实我没有。
- 至于工作问题，人工智能会取代许多平凡的脑力劳动，这可能会加剧贫富差距。富人会更富，穷人会更穷。全民基本收入可能有助于解决温饱问题，但无法解决尊严问题。
- 主持人：人类大脑作为模拟系统，它有什么优势吗？Geoffrey Hinton：最大的优势在于能耗和连接规模。人脑只需要 30 瓦就能运行，而且拥有约 100 万亿个连接。相比之下，最大的 AI 模型也只有 1 万亿个连接。也就是说，我们的大脑仍然比最大的模型大近 100 倍，却只需要 30 瓦的功率。
- 一个令人担忧的发展路径是：它们很快就会意识到获取更多控制权是实现任何目标的有效途径。一旦它们认识到控制权的重要性，一旦它们超越人类智能，我们就会变得无足轻重。即使它们怀有善意，我们也会沦为配角。就像一个大公司里的傀儡 CEO，实际运营完全掌握在他人手中。
- 很多人坚信 AI 没有知觉，但当你问他们“知觉是什么”时，他们却说“不知道，但 AI 肯定没有”。这种在不知道定义的情况下就确信 AI 缺乏某种特质，这个立场本身就很矛盾。
宇树机器人让中国足球冲入“世界杯”！网友：新技能可太长脸了（ 2025年01月22日）
- 视觉识别API：内置最新YOLO 11实时目标检测算法
谈谈对DeepSeek-R1的一些理解（2025年01月23日）
- 原来单纯的RL就可以激发模型产出带有long cot（甚至是反思）的回复的能力！（可能在此之前已有很多研究发现了这点，是我对这一块的follow-up太少了，确实直到跟着热点读了dpsk-r1，才发现了这点）。这里单纯的RL是指：我并没有显式提供一些真正的long cot数据让模型去背去学，我只是在sys_msg里告诉模型先思考，再回答。接着通过RL一轮又一轮的训练，模型产出的responses越来越长，且在某个时刻出现了自我评估和反思的行为。这个实验探索就是dpsk-r1-zero在做的事情。
OpenAI新研究：o1增加推理时间就能防攻击，网友：DeepSeek也受益（2025年01月23日）
- 像o1这样的推理模型，随着思考时间的延长，面对对抗性攻击会变得更加稳健。
- Zaremba W, Nitishinskaya E, Barak B, et al. Trading inference-time compute for adversarial robustness[J].
华为、理想、特斯拉、商汤的世界模型是做什么用的？（2025年01月24日）
- 最近世界模型（World Model）很火，甚至有人说世界模型是终极自动驾驶解决方案，实际上它只是端到端大模型的一种，和VLM没有本质区别。目前的研究基本都集中在用世界模型生成视频或其他连续时间序列上的可视化数据，再用这些视频训练传统或端到端的自动驾驶模型，几乎没有人研究直接用世界模型做自动驾驶的。即便是视频生成，也还是处于实验室的学术研究阶段。
- 所谓世界模型就是视频生成加 prompt 控制。视频生成有四大类型，包括基于对抗网络GAN的，基于扩散模型的，基于自回归模型（基本上就是transformer）和基于掩码的。
国内首发！跃问App上新「创意板」功能，无痛自制应用+游戏，强代码能力支持，说出灵感即可实现（2025年01月24日）
- 简简单单对着AI大模型说大白话，就能让它给你做游戏、做应用。
- 据统计，跃问新上的这个创意板，是目前国内第一个「应用与游戏生成方向」的功能。
百度搞了个AI「黑科技」，让科技圈大佬们抢镜拜年（2025年01月26日）
- 百度这一拜年神器的背后，离不开其自研的 iRAG（image-based RAG）技术。
- 现在，RAG 这个研究方向可以说是百花齐放，但其核心流程基本可以归结为三个阶段：索引（Indexing）、检索（Retrieval）、生成（Generation）。
- 不仅如此，百度还成功压低了 iRAG 的计算成本，能以非常快的速度、近乎零成本地为用户提供服务。百度自己给出的总结是：「无幻觉、超真实、没成本、立等可取」。
AI项目算法迭代的成本，为什么很高？降本增效的思路解析！（2025年01月27日）
- 算法迭代的最大成本在哪里？（数据）
- 如何提速增效？（数据质量、错题集、数据广度重要性高于数据量、不要让模型处理它cover不了的数据、让流程自动化、时刻测试）
- 一旦你有了定性的认识，编写一些简单的代码来搜索、过滤、排序任何你能想到模型输出，并可视化它们的分布和以及分析异常值，异常值几乎总是暴露出数据质量或预处理中的某些bug。
- 识别错误的数据，置信度低的数据，回归框不准的数据，漏识别的数据等等。
- 着眼未来技术
DeepSeek在美超越ChatGPT！问鼎苹果免费App第一（2025年01月27日）
- 就在刚刚过去的周末，DeepSeek反超ChatGPT，一举登顶美区苹果应用商店免费App排行第一！
- 仅仅花费560万美元训练的R1，在很多AI基准测试中已经达到甚至超越OpenAI o1模型。
DeepSeek除夕狂飙大招：开源多模态掀翻全场！256张A100训两周碾压DALL-E 3（2025年01月28日）
- 多模态大一统开源模型 Janus-Pro 系列上线！其中，1.5B模型仅用了128颗英伟达A100训练一周，而7B也只是翻了个倍。
- 论文地址：https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf
- 开源项目：https://github.com/deepseek-ai/Janus
DeepSeek V3论文细节：如何绕开CUDA的垄断！（2025年01月29日）
- DeepSeek 最近发布的两个模型 —— DeepSeek-V3 和 DeepSeek-R1 以很低的成本获得了比肩 OpenAI 同类模型的性能。根据外媒的报道，他们在短短两个月时间，在 2,048 个 H800 GPU 集群上，训出 6710 亿参数的 MoE 语言模型，比顶尖AI效率高出 10 倍。这项突破不是用 CUDA 实现的，而是通过大量细粒度优化以及使用英伟达的类汇编级别的 PTX（Parallel Thread Execution，并行线程执行）编程。
- 英伟达 PTX（并行线程执行）是专门为其 GPU 设计的中间指令集架构，位于高级 GPU 编程语言（如 CUDA C/C++ 或其他语言前端）和低级机器代码（流处理汇编或 SASS）之间。PTX 是一种接近底层的指令集架构，将 GPU 呈现为数据并行计算设备，因此能够实现寄存器分配、线程/线程束级别调整等细粒度优化，这些是 CUDA C/C++ 等语言无法实现的。
- PTX，GPU 的汇编语言
- 网友 Ian Cutress 表示：「Deepseek 对于 PTX 的使用，并不会消除 CUDA 的技术壁垒。」
- 如果选择使用 PTX 编程，就意味着上文提到的那些已经建好的 CUDA 库，都不能用了。这是一项极其繁琐的任务，需要对硬件和运行问题有深厚的专业知识。
- 需要注意的是，PTX 通常是针对特定硬件型号优化的，除非专门编写适配逻辑，否则很难在不同硬件间移植。
“DeepSeek甚至绕过了CUDA”，论文细节再引热议，工程师灵魂提问：英伟达护城河还在吗？（2025年01月29日）
DeepSeek独立发现o1核心思路，OpenAI首席研究官亲自证实！奥特曼被迫发声（2025年01月29日）
- 漂亮国「星际之门」项目，计划4年内砸5000亿美金，在全美建造20座超算。
蛇年春晚，跳舞的机器人啥路子？啥配置？（2025年01月29日）
回顾！华为天才少年谢凌曦：关于视觉识别领域发展的个人观点！（2025年01月31日）
- 信息稀疏性、域间差异性、无限粒度性
- NLP都走在CV的前面。NLP的起点更高：自然语言的基础单元是单词，而图像的基础单元是像素；前者具有天然的语义信息，而后者未必能够表达语义。
- 自然语言是人类创造出来，必然具有高效和信息密度高的特性；图像则是人类通过各种传感器捕捉的光学信号，它能够客观地反映真实情况，但相应地就不具有强语义，且信息密度可能很低。
- 图像空间比文本空间要大得多，空间的结构也要复杂得多。这也是为什么自然语言预训练模型比视觉预训练模型用得更好的本质原因
- 方向1a：神经网络架构设计
- 没有“帧率”的概念，响应特别快。如果说传统的摄像头是等时间间距采样的，那么DVS是等亮度变化值采样的，因此可以捕捉更快的动作，对于非常迅速的亮度变化十分敏感；event之间可以小于1微秒，基本不会产生传统相机（几十到几百帧率）的模糊
- 方向1b：视觉预训练
- MIM：Masked Image Modeling
- 方向2：模型微调和终身学习
- 方向3：无限细粒度视觉识别任务
- 我将CV领域的问题分为三大类：识别、生成、交互，识别只是其中最简单的问题。

4、April

商汤科技连亏七年，拐点何时来？（2025年04月01日）
- 曾被誉为“AI第一股”赴港上市的商汤科技，距离盈利还有多远？这是自2018年以来，商汤科技连续亏损的第七个年头，累计亏损超过500亿元，经营活动现金流净额亦持续为负，突显其商业策略依然面临着严峻考验。
- 技术同质化与巨头挤压。尽管“日日新”大模型在SuperCLUE评测中超越GPT-4 Turbo，但其多模态能力与百度“文心一言”、阿里“通义千问”尚未形成代际差距。开源模型（如DeepSeek）的崛起进一步稀释技术溢价空间，商汤以13.3%的市占率位列GenAI IaaS市场第三，落后于阿里云和百度。
- 商业模式模糊。生成式AI的变现仍以B端定制为主。相比之下，OpenAI通过ChatGPT的C端订阅模式实现16亿美元年收入，商汤的路径选择仍显单一。
- 去年10月，商汤科技董事长兼CEO徐立发布商汤了10周年的内部信，指出AI 1.0时代模型生产的主要成本在于研发人员的投入，而在AI 2.0时代，模型生产的成本主要在于算力资源的投入
- 值得注意的是，截至2024年12月31日，商汤科技的总雇员为3756名，与2023年同期减少约17%。
- 商汤仍需证明：AI的星辰大海，不止于资本的输血游戏。
小米汽车亏损62亿，雷军长舒一口气~（2025年04月01日）
- 小鹏去年的那句誓言令人记忆深刻：在血海中游泳，一直游到海水变蓝！
- 财报显示电动汽车等创新业务经调整净亏损62亿，按136854台的全年交付量计算，相当于每台车亏损4.5万元。
- 在很多场合，雷军都谈到了顺势而为的商业哲学，最经典的当属在书中提到的那句：仅靠聪明和勤奋是远远不够的，关键是要找到时代的风口，顺势而为。
- 之前雷军在直播时谈到SU7 ultra的安全问题时，表示要设置电子围栏，通过车辆的坐标位置来决定启用多少性能，如果定位不在赛道，那么就会限制其速度，目的就是为了防止城市飙车问题，不过这个电子围栏目前并未在量产车上装备。
小米SU7高速碰撞爆燃 | 自动驾驶功能你还敢用吗？（2025年04月02日）
- 普通用户对自动驾驶或辅助驾驶系统的预期，往往高于产品或系统实际能够提供的性能。
- 自动驾驶技术的发展和落地路线应该是：先载物后载人，先低速后高速。
- SAE将自动驾驶系统的自动化等级分为了 L0-L5，其中最关键的分界点是 L3。
- 换句话说，自动驾驶功能虽然减轻（或缓解）了一部分驾驶员的体力操作，然而却导致其头脑注意力要高度集中以确保及时接管车辆来避免危险的发生。这样一来，其实际的结果可能是驾驶员在开启自动驾驶系统时不是头脑集中而是身体和头脑全部放松下来，当出现危险时，驾驶员反而无法及时的控制车辆的某一操作（转向、加速、制动等）最终发生事故。这种类似的悲剧貌似在实际中已经发生过。
- 蠢（尝试在方向盘上放置矿泉水来骗过系统的接管检测，进而来放松驾驶员对系统的监控。），简直就是在拿自己的生命在开玩笑！但是，这又从另一个侧面反映了用户对于自动驾驶辅助系统能力的信任程度，显然这种信任是过度的，是无知的。
买车吹得神乎其神，用后原形毕露，哈弗猛龙翻车了？（2025年04月05日）
- 2023年11月6日购买了一辆哈弗猛龙PHEV ，该车设有停车监控功能，在开启情况下，车辆在停止状态，可自动监控拍摄对车辆发生接触而产生晃动等意外情况。
- 不久前，李先生早上开车时，发现车被人为重力划伤，而车辆却没有起到拍摄作用。找厂家后，得到的答复是该功能在光线暗淡情况下无法实现，建议他报警。
稚晖君刚挖来的90后机器人大牛：逆袭履历堪比爽文男主（2025年04月05日）
- 刚刚，稚晖君旗下创企智元机器人官宣了两个新动向——具身智能领域的国际领军学者罗剑岚博士，已于近日加盟并出任首席科学家。国际顶尖具身智能公司Physical Intelligence（Pi）正式和智元机器人达成合作伙伴关系，双方将围绕动态环境下的长周期复杂任务，在具身智能领域展开深度技术合作。
赛力斯2024财报喜忧参半（2025年04月07日）
- 3月31日晚，赛力斯（601127.SH）发布2024年年报：全年实现营业收入1,451.76亿元，同比增长305.04%；归属于上市公司股东净利润达59.46亿元，成为继特斯拉、比亚迪、理想之后全球第四家盈利的新能源车企。
- 2024年，赛力斯销售费用191.84亿元，同比增长251.03%，销售费用率（销售费用占营收比重）为13.21%，远高于比亚迪的3.1%。2024年，赛力斯“广宣、形象店建设及服务费”高达181.12亿元。
蚂蚁集团今年的年终奖。。。（2025年04月07日）
东风+华为，还是华为借东风？华为ADS3.0技术详解（2025年04月11日）
- 自从华为ADS 3.0 于2024 年4月24 日在 “华为智能汽车解决方案发布会” 上正式发布后，2024年第四季度率先搭载于问界M9旗舰 SUV，2024年9月11日起，鸿蒙智行全系（问界M5、问界M7、问界M9、享界S9、智界S7等车型）陆续升级华为ADS 3.0 。
- ADS 3.0是无图方案，意味着摆脱高精地图依赖。
- 影子模式，本来是有tesla首先提出并实现的一个功能。是指在有人驾驶状态下，系统包括传感器仍然运行但是并不参与车辆控制，只是对决策算法进行验证—系统的算法在“影子模式”下做持续模拟决策，并把决策与驾驶员的行为进行对比，一旦两者不一致，该场景就被判定为“极端工况”，进而触发数据回传。
- Telsa的所有车型都支持此功能，因此Tesla的每个用户都是特斯拉免费的测试员，用户越多，能采集到的数据越多。
- GOD（General Obstacle Detection，通用障碍物检测）
聊聊强化学习发展这十年（2025年04月13日）
- 最近在帮忙给强化学习立标准，我发现这是一件非常痛苦的任务。因为随着这两年强化学习的大力发展，强化学习衍生出了许许多多的子课题方向，除了最经典的online RL以外，例如offline model-free RL,model-based RL,RLHF,multi-agent,risk-sensitive,inverse RL等等，要给这些子课题找共性非常困难。
- 这导致像作者这样的old school，在看到最新的强化学习应用文章时，总会试图问文章作者几个基础的问题，状态是啥，动作是啥，奖励是啥。但其实现在很多文章已经不考虑这些问题了。
- 但较为可惜的是，以强化学习为核心的游戏AI应用市场份额不大，
- 但作为一个强化学习研究者，并尝试去进行AI应用落地的人来说，至少这波RL概念扩大，让RLer吃上了饭，甚至吃上了好饭，应该还是要对此心怀感激的吧。
永别了，GPT-4下线了！（2025年04月13日）
- 4月10日，OpenAI正式宣布，即将从ChatGPT中移除两年前推出的GPT-4。
- 从4月30日起，GPT-4将被当前的默认模型GPT-4o完全取代。
- The Verge独家爆料称，OpenAI正准备发布一系列全新模型——包括GPT-4.1（含GPT-4.1 mini和GPT-4.1 nano）、满血版o3，以及神秘的o4系列（o4-mini、o4-mini-high）。
4月10号马云的全员信要有大动作了（2024年04月15日）