【Reading Notes】（6）Favorite Articles from 2023

bryant_meng

已于 2025-02-21 20:25:10 修改

阅读量1.1k

点赞数 36

分类专栏： Speech / Course 文章标签：阅读人工智能大模型新能源程序员

于 2025-02-19 16:12:51 首次发布

本文链接：https://blog.csdn.net/bryant_meng/article/details/145605508

版权

Speech / Course 专栏收录该内容

31 篇文章

订阅专栏

在这里插入图片描述

文章目录

1、January
2、February
3、March
4、April
5、May
6、June
7、July
8、August
9、September
10、October
11、November
12、December

1、January

马斯克疯狂省钱：断供厕纸，辞退保洁，退租办公室（2023年01月01日）
回顾2022，那些令人印象深刻的AI突破（2023年01月03日）
- 一幅图胜过千言万语（虽然预训练语言模型已经取得了惊人的成就，但是它们并不像视觉图片和视频那样直观）
- “The dogs bark, and the caravan moves on”
  虽然狗吠声音不止，但是商队一直前进。
这可能是中国最“恨”地铁的高校，甚至写了篇论文反对地铁经过…（2023年01月04日）
- 4号线开通时，北大有价值11亿元的精密仪器，其中4亿元的仪器受到影响。原因很简单——交通微振动。
- 最后大家采取了一个折中方案，4号线经过北大的789米轨道段，将采用世界上最先进的轨道减振技术，也就是在钢轨下铺设钢弹簧浮置板。最后北大做了妥协，这才有了后来的【北京大学东门站】。
- 没想到一个小小的振动，也能引起如此大的漩涡，这可能就是“地铁蝴蝶效应”吧~

2、February

Anchor-Free目标检测器EdgeYOLO：精度和速度完美超越YOLOX、v4、v5、v6（2023年02月20日）
- https://github.com/LSH9832/edgeyolo
- Liu S, Zha J, Sun J, et al. EdgeYOLO: an edge-real-time object detector[C]//2023 42nd Chinese Control Conference (CCC). IEEE, 2023: 7507-7512.
- https://arxiv.org/pdf/2302.07483
- 改进，数据增广方式，head（v7的），loss

3、March

大模型111人：谷歌和OpenAI的人才战争（2023年03月06日）
The battle of AGI never ends！
老罗落泪！北大团队搞出ChatExcel，说人话自动处理表格，免费且不限次使用（2023年03月05日）
摩尔定律之父94岁仙逝！悼念一代半导体先驱、英特尔创始人戈登·摩尔（2023年03月25日）
当地时间3月24日，摩尔定律的提出者、英特尔公司联合创始人戈登·摩尔（Gordon Moore）在家人的陪伴下平静地去世，享年94岁。
在1965年，他做出了人类历史上最著名的预测之一：「集成电路上的晶体管数量将每年翻一番，从而以指数方式提高计算机的数据处理能力。」
补充知识：
- 更多的晶体管可以并行处理数据，从而加快运算速度
- 更小的晶体管在工作时所需的能量更少，因此可以降低芯片的功耗
突发！AI视觉大牛陶大程被爆将离职京东探索研究院院长！（2023年03月30日）

4、April

YOLOv8——CV界的XGBoost（2023年04月28日）
- 分类、检测、分割、跟踪、关键点

5、May

6、June

知识蒸馏综述: 知识的类型（2023年06月08日）
- Gou J, Yu B, Maybank S J, et al. Knowledge distillation: A survey[J]. International Journal of Computer Vision, 2021, 129(6): 1789-1819.
- 知识蒸馏系统的三个核心组件：知识 knowledge、蒸馏算法 distillation algorithm、教师学生架构 teacher-student architecture
- Response-Based Knowledge，指的是神经元的响应
- Feature-Based Knowledge，一般而言，在基于特征的知识迁移中，研究的对象包括了：如何需选择知识类型？特征图、注意力图、gram矩阵或其他如何选择教师层和学生层？简单的一对一匹配，自适应通过注意力匹配。如何弥补教师网络与学生网络之间的GAP？如果容量相差过大，可能会导致学习效果变差。
- Relation-Based Knowledge，不同层之间的关系建模，不同样本之间的关系建模
谷歌DeepMind打破十年算法封印，AlphaDev惊世登场，颠覆人类算法格局！（2023年06月08日）
- [Alpha」家族再添新成员AlphaDev！谷歌大脑DeepMind合体后首发力作，全新AI系统将排序算法提速70％，C++排序库十年来首次更改。AI创造AI的时代要来了？
- 谷歌 DeepMind 的研究者相信，在这个较低的层级中存在许多可改进的空间，而这些改进在更高级的编程语言中可能很难发现。
  
  AlphaDev：汇编版 AlphaZero
13条咒语挖掘GPT-4最大潜力，Github万星AI导师火了，网友：隔行再也不隔山了（2023年06月11日）
YOLOv8太卷啦 | YOLOv8官方正式支持RT-DETR训练测试及推理（2023年06月19日）
- RT-DETR由百度开发，是一款端到端目标检测器，在保持高精度的同时提供实时性能。它利用ViT的强大特性，通过解耦尺度内交互和跨尺度融合来有效处理多尺度特征。RT-DETR具有很强的适应性，支持使用不同的解码器层灵活调整推理速度，而无需重新训练。该模型在具有TensorRT的CUDA等加速后端方面表现出色，优于许多其他实时目标检测器。
AI竟能生成芯片了！GPT-4仅用19轮对话造出130nm芯片，攻克芯片设计行业巨大挑战HDL（2023年06月21日）
HDL，硬件描述语言，变成了 Chip Chat
- GPT-4，已经可以帮人类造芯片了！
- 只用简单的英语对话，纽约大学Tandon工程学院的研究人员就通过GPT-4造出了一个芯片。具体来说，GPT-4通过来回对话，就生成了可行的 Verilog（全称为Verilog HDL，是一种特定的硬件描述语言）。随后将基准测试和处理器发送到 Skywater 130 nm 穿梭机上成功流片（tapeout）。
- 这项成就，堪称史无前例。

7、July

仅靠“口才”就能解决视觉任务！商汤提出Shikra：新一代多模态大模型（2023年07月02日）
- 《Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic》
- https://arxiv.org/pdf/2306.15195.pdf
- https://github.com/shikras/shikra
- 基于 CLIP 做的
- 会拼图
- 会分辨谁是镜子中的人
- 点作为输入也可以
- Reffering Expression Generation
- Referring Expression Compression
3D AI生成出新玩法了：无需数小时，只要45秒，单张图片即可生成 3D模型（2023年07月12日）
- Project Page: http://one-2-3-45.com
- Paper: https://arxiv.org/pdf/2306.16928.pdf
- Code: https://github.com/One-2-3-45/One-2-3-45
- Demo：https://huggingface.co/spaces/One-2-3-45/One-2-3-45
推特正式改名“X”，再也没有小蓝鸟了（2023年07月24日）

8、August

华为新机测出5G速度！麒麟9000S正式回归，定价6999首批秒抢光（2023年08月29日）
- 值得注意的是，只有电信卡支持卫星通信功能，并需要在中国电信APP自助开通。
- 5G虽未明确显示，但是多位博主实测网速达到5G水平。
中国海洋大学发声！日本核污染水排海危害有这些，多所海洋大学学子附议！（2023年08月29日）
- 第一，核污染水中，很多放射性核素尚无有效处理技术。
- 第二，核污染水中的放射性核素，影响人类健康。（核素进入到生态系统当中，它必定会通过食物链层层传递，影响到人类健康。）
击败3位人类世界冠军，登上Nature封面！AI无人机极限竞速开启自动驾驶新纪元（2023年08月31日）
- 苏黎世大学联合因特尔开发的Swift无人机竞速系统击败3名人类世界冠军，飞行自动驾驶迎来新纪元！
- 研究人员解释，在Swift输掉的10场比赛中，40%是因为与对手发生碰撞，40%是因为与闸门发生碰撞，20%是因为无人机的速度比人类飞行员慢。总的来说，Swift在与人类飞行员的比赛中获胜最多。Swift还取得了最快的比赛时间记录，比人类飞行员（A.Vanover）的最佳时间领先半秒。
算法岗工作，平时需要自己写cuda吗？（2023年08月31日）
- 先放结论：基本上不需要，但是是很好的加分项！除非有特别高频使用的算子，优化前后的差距非常明显(比如对整体的影响5倍左右，无论是显存还是速度)才可以考虑进行个别算子的优化。万一一通CUDA操作下来，模型效果提升不明显，最终的时间/人力成本不一定划算。我更倾向于尽量先验证算法再进行优化。
- 就算业务上没有使用cuda的地方，也可以学学cuda并行语言的思想。并行思想和普通的串行差距还是蛮大，有一定的代沟，需要时间过渡。

9、September

你的科研能力从什么时候开始突飞猛进的？（2023年09月02日）
- 查阅、读、写、coding 借助大模型
- 没能早点领悟在“被瞎指挥”
- 终有一刻发现曾经高高在上的世界级大牛其实也只是凡人而已。
如何评价3D点云的前景？（2023年09月05日）
- 点云处理技术包括点云获取、滤波、分割、配准、检索、特征提取、识别、追踪、曲面重建、可视化等方法技术，也包括结合图论、模式识别、机器学习、数据挖掘和深度学习等人工智能算法之后的解决实践应用中的同步定位与地图构建（SLAM)、三维模型检索、三维场景语义分析、广义点云等综合技术内容。
- 3D点云技术目前面临着一些挑战：数据获取处理、数据噪声和不完整性、数据存储与计算、点云的语义理解、点云的高效表示和压缩、数据标注与验证、实时性要求
错误率降低44%！纽约大学最新「人脸生成」可让年龄随意变化：从少年到老年全覆盖（2023年09月06日）
- Banerjee S, Mittal G, Joshi A, et al. Identity-preserving aging of face images via latent diffusion models[C]//2023 IEEE International Joint Conference on Biometrics (IJCB). IEEE, 2023: 1-10.
- https://arxiv.org/pdf/2307.08585
这一次，大模型颠覆广告行业！（2023年09月07日）
- 就在刚刚，百度营销官宣接入文心一言，推出新一代营销平台轻舸，也是全球首个AI Native的营销平台。
- 不需要再纠结于“关键词”，直接把需要推广的产品/服务、广告的目标人群告诉大模型，大模型就能够理解人类意图，自动生成营销方案。这样一来，就避免了关键词疏漏造成的营销信息丢失。
博士应聘高校把老板卖了：4篇论文导师虽一作，实际都是我一个人写的…（2023年09月10日）
YOLO-NAS 如何将 YOLO-v8 甩在身后？（2023年09月16日）
- 预训练了一些顶级的数据集（COCO、Objects365和Roboflow 100）
- YOLO-NAS S：47.5 mAP，延迟 3.21 毫秒
- YOLO-NAS M：51.55 mAP，延迟 5.85 毫秒
- YOLO-NAS L：52.22 mAP，延迟 7.87 毫秒
- YOLO-NAS S INT-8：47.03 mAP，延迟 2.36 毫秒
- YOLO-NAS M INT-8：51.0 mAP，延迟 3.78 毫秒
- YOLO-NAS L INT-8：52.1 mAP，延迟 4.78 毫秒
- github代码：https://github.com/Deci-AI/super-gradients
吴恩达教授2023年斯坦福最新演讲！（2023年09月17日）
- AI 是一种通用技术，类似电力，有很多不同的应用领域。
- 监督学习
- 生成式人工智能的核心是使用监督学习，通过输入-输出映射来重复预测下一个单词
- 随着生成式人工智能的崛起或新的人工智能工具的出现，真正令我兴奋的是有机会创建那些非常深入、非常复杂的应用程序，希望它们能够创造非常长期的价值。（想到了 Steve Jobs 在我们推出 iPhone 后不久，有人写了一个我花了 1.99 美元的应用程序，可以将手机的 LED 灯打开，将手机变成手电筒。这也是一个不错的想法，编写一个应用程序来打开 LED 灯，但它也不具备可持续的长期价值，因为它很容易被复制，价格不高，并最终被整合到了 iOS 中。但随着 iOS 和 iPhone 的崛起，有人也想出了如何构建 Uber 和 Airbnb 这样的应用。）
- 我看到了许多令人兴奋的低代码和无代码工具，使用户能够自定义人工智能系统。（挖掘长尾领域的 value）
- 我并不认为AI会对人类构成任何有意义的灭绝风险。虽然人们担心我们无法控制AI，但我们已经有很多经验来引导非常强大的实体，如企业或国家，这些实体比任何个人都要强大，确保它们在很大程度上造福人类
连博世都放弃激光雷达研发了（2023年09月17日）
发言人还对放弃激光雷达研发给出了两点解释：技术复杂性和上市时间。
放眼未来，上市时间还是个问题，目前赛道上仅国内就有禾赛科技、速腾聚创等知名玩家，博世的激光雷达量产后未必能卷的过。
台积电补贴苹果数十亿刀，只为能代工3nm芯片？揭秘苹果和台积电的「共生协议」（2023年09月18日）
据知情人士称，就今年推出的3纳米工艺节点而言，晶圆上的芯片良品率一直在70%到80%之间徘徊。对于台积电的客户来说，这个数字是难以接受的，因为客户需要为整个晶圆买单，包括其中有缺陷的芯片。但是针对苹果，台积电只会收取良品芯片的费用，也就是业内所称的「已知合格芯片」。 毕竟，有苹果这样的金主愿意成为台积电新制造工艺的第一个客户，能分担台积电先进制程节点的研发费用和专用工厂的建设费用。
OpenCV钢铁平面焊接的缺陷检测案例（2023年09月22日）
Yolo系列检测网络不再孤单，延伸框架层出不穷（附框架源代码）（2023年09月28日）
- Yolo-Fastest开源代码：https://github.com/dog-qiuqiu/Yolo-Fastest
- YoloV：https://github.com/YuHengsss/YOLOV
- Pyramid Vision Transformer（PVT）：https://github.com/whai362/PVT

10、October

CRAS-YOLO：多类别船舶检测与分类模型（2023年10月03日）
- 由卷积块注意力模块（CBAM）、感受野块（RFB）和基于YOLOv5s的自适应空间特征融合（ASFF）组成。CRAS-YOLO改进了基于路径聚合网络（PANet）的特征金字塔网络，该网络集成了RFB特征增强模块和ASFF特征融合策略，以获得更丰富的特征信息，并实现多尺度特征的自适应融合。同时，在骨干中增加了CBAM，以准确定位船只位置，提高检测能力。
博士师弟被高校引进，承诺其可当上市局副局长？长点心吧…（2023年10月04日）
学富五车的博士，学富三车的硕士
小目标检测trick，HIC-YOLOv5模块，简单高效实用!（2023年10月04日）
- 论文链接：https://arxiv.org/abs/2309.16393
- Tang S, Zhang S, Fang Y. HIC-YOLOv5: Improved YOLOv5 for small object detection[C]//2024 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2024: 6614-6619.
- 特别为小目标设计了额外的预测Head。它在分辨率更高的特征图中检测目标，其中包含更多关于微小和小目标的信息。
- 在Backbone网络和Neck之间添加了一个involution块，作为特征图的通道信息增强桥梁。
- 在Backbone网络的末端应用了CBAM，从而提取了更多的关键通道和空间信息，而忽略了多余的信息。

11、November

基于 YOLOv8 的动物物种检测（2023年11月11日）
肚子越大，大脑萎缩越严重！还可能增加痴呆风险，最新研究双倍扎心（2023年11月12日）

12、December

期待雷布斯，小米汽车首场发布会定了！（2023年12月27日）
- 小米汽车：12月28日举行技术发布会，从2021年3月30日，时值小米春季发布会，小米发布公告官宣开始造车，到今天正好1000天。
深入浅出，拆解AIGC的基础及各行业应用，推荐阅读！（2023年12月28日）
- 文本类、图像类、音频类、视频类
2023启示录丨自动驾驶这一年（2023年12月28日）
- 抢时间，抢数量，如同共享单车大战的时候，OFO和摩拜单车每天凌晨就拉着自家的单车在各大地铁口提前占位一样。城市辅助驾驶的落地，也开始以城市为节点，悄然画出了一条无形的战线。
- 辅助驾驶很早就知道，让用户用起来，完成商业逻辑闭环的重要性，这就像是一种PTSD(创伤后应激障碍），它不断地告诉智能驾驶，必须落地，必须尽快落地。
- 要加速智能驾驶落地（L2），关键的要素有两个，一个是降本（“轻地图，重感知”的呼声越来越高），另一个是安全（国内即使最激进的纯视觉方案，也会搭载至少一颗激光雷达作为安全冗余）。
- Cruise就像是班上成绩一直名列前茅的孩子，当他交出的答卷都一塌糊涂的时候，打击的一定不只是他自己，还有大家对这个班级整体的信心。（L4）
- 大模型在自动驾驶的应用主要体现在两个维度，其一是大模型作为工具，辅助自动驾驶算法的训练；其二是大模型作为决策模型，控制车辆的行驶，提高自动驾驶的泛化能力（特斯拉FSD V12版本减少了数十万行代码，并且在没有数据连接的情况下仍能在不熟悉的地形上工作）。
- 从智能驾驶到自动驾驶，从大模型到车路协同，再到产业政策。
自动泊车之停车位检测算法（2023年12月29日）
- 4幅鱼眼相机拍摄的画面会经过 Around View Monitor(AVM) 处理，生成一个拼接后的鸟瞰图
- 网上公开的数据集可用同济的ps2.0，首尔的PIL_park，这两个数据集可以用来练兵，再去应对现实场景。
- 传统视觉的车位检测、深度时代的车位检测
华为的车BU拆解意味着什么？（2023年12月30日）
- 华为和小鹏汽车关于真假AEB的争论掀起行业广泛关注
- 特斯拉开始向员工提供FSD V12自动驾驶系统
- 国内汽车企业开始了新一轮的联盟关系
- 华为和长安成立合资公司，其中华为将智能汽车解决方案业务的核心技术和资源进行整合至合资公司，其中涉及到汽车智能驾驶解决方案、汽车智能座舱、智能汽车数字平台、智能车云、AR-HUD与智能车灯业务。
揭秘茅台背后的科技力量，看传统企业的数字化转型与升级（2023年12月31日）
- 酱香拿铁、茅台冰淇淋、巧克力、“首发即登顶”的i茅台、巽风元宇宙App
- “得微生物者得天下”，你觉得茅台酒好喝，一定不是你的错觉，是真的有科学道理在里头。
- 在人才投入上，茅台还成立了科学与技术研究院，设立了酿造原料与育种研究中心、酿造环境生态研究中心、绿色技术研究中心、酿造微生物研究中心、风味与安全研究中心、酿造工艺与装备技术研究中心、生命科学策源中心等七个研发中心。
- 实体经济和传统产业的科技机遇。
- 科技创新最大的机遇和想象空间，在茅台，在实体经济，在有场景的产业。