文章目录
李开复Bengio大咖对话
李开复Bengio大咖对话:下一阶段AI最大机遇在这4个领域
Bengio:深度学习2.0
过去几十年研发的系统,都建立于一个假设,即默认测试数据与训练数据有相同的数据分布。
然而在现实世界中,无论在什么行业应用,都会存在实际情况与AI训练时不同的问题。
这一问题看起来无解,但目前我们找到了几个突破点和想法,主要是借鉴人类的意识加工机制,对原本分散的知识积累,快速进行全新重组。
吸收人类的归纳倾向,对数据分布算法进行泛化。
AI还能为抗疫做什么
隐私保护需要尽可能降低数据交换,而机器学习却需要尽可能收集大量的数据
AI的真正未来
社交媒体在诞生之初,本意是做一个最为透明、最为公平、普惠大众的公众传播平台,但由于算法基于人类偏好的推荐,及带有特定企图的传播者作祟,造成社交网络的破碎凌乱,煽动的、谬误的、偏见的信息被放大传播,不仅没法帮助我们理性讨论,也欠缺帮助人们做出最佳集体决策的能力。
IEEE Fellow王井东:我很看好Transformer
IEEE Fellow王井东:我很看好Transformer
我自己很喜欢 Transformer。Transformer 里面最关键的是注意力(Attention)。为什么我喜欢它呢?很多年前,我跟权龙老师读博时,他就说,视觉识别领域最重要的就是两个点,一个是特征,一个是匹配。而 Attention 天然就是干这个事儿的。Attention本身就是一个搜索、匹配的过程。同时,在 Transformer 里面,它也是学习特征的过程。我自己看好Transformer 的一个很大的原因是,它把特征与匹配完美地融合到了 Attention 机制里。所以我觉得将来它有可能成为网络结构统一的助推。
另外,Attention 非常直观、可解释性强。以前大家都说 CNN 要往可解释性的方向走,要能解释一些网络结构,要费很多功夫去解释。但 Attention 可以直接告诉你,它本来就是可解释的,是非常直观的。
Interesting applications of AI
【钢筋检测计数】
【face 2 face】
- cycle GAN
- Face2Face
- deepfakes
- FSGAN:实现任意两张人脸图片换脸的GAN方法
- 人脸修复 GFPGAN
- 3D人脸重建——PRNet网络输出的理解
【智能台灯】
眼离书本一尺
胸离桌子一拳
手离笔尖一寸
坐姿检测、坐姿判断和实时提醒等功能
基于人体脸部、肩部、手臂等节点特征,识别坐姿异动,判断低头、歪头、斜肩、扶额、托脸等常常出现的不自觉错误习惯
识别时间设置
设置检测不良坐姿的持续时间(15s/30s/60s),作为判断何时进行提醒和录像的标准。
适时消息提醒
当不良坐姿持续时长达到设定值,将触发异常事件消息提醒,并抓拍坐姿异常图片,上传至用户移动端的矫正相册。
坐姿曲线报告
统计坐姿异常持续时间、发生异常次数等数据,输出坐姿曲线报告供用户查看。
低头灭灯感应
用天猫精灵打开台灯
用天猫精灵调暗亮度
用APP调整亮度
智酷坐姿矫正台灯内置的TOF 3D测距传感器,可以精准计算坐姿变化,监督孩子日常学习保持良好的坐姿状态,让孩子学习成长更健康。按压台灯底座坐姿矫正的按钮后,台灯会提示录入正确的坐姿。
坐姿矫正智能化,AI助您坐姿佳——视觉AI坐姿仪新体验
成者 AI 坐姿仪
此时用户如果低头或者腰背松垮,成者AI坐姿仪会发出语音提醒并闪烁繁星状激光。如果上班族不方便播放语音,可以关闭底部开关使用静音模式,此时只会看到闪烁激光。
语音提醒是女声,包括“低头了,请抬头”、“请注意坐姿,腰背挺直,抬头,收下巴”等,声音温柔自然,听着舒服。
设计者很贴心的准备了自定义坐姿模式(白灯常亮),通过长按触摸键,可以切换到自定义坐姿模式,第一次使用根据语音提醒,进行坐姿录入,用户尽可能挺直腰背、适当低头,5秒钟后完成录入。
不良坐姿总结为四类:歪头、低头、前伸(脖子)、下沉(腰背)。每类不良坐姿按严重程序分为三档:轻微、中度、严重
根据这四种类型和三种程度分别组合对应不同的容忍时长。例如,轻微的不良坐姿容忍时长会长一点,持续轻微不良坐姿时间较长才会进行提醒。这也就避免转个头就要提醒一次的尴尬。
有道智能学习灯有2枚摄像头,一枚200W像素超广角摄像头位于屏幕上方,另一枚800万像素的摄像头位于台灯顶部。2枚摄像头配合,可以实现扫描作业、查询翻译、视频通话等功能,同时还可以检测识别孩子坐姿、专注力等学习状态,可见有道智能学习灯在设计方面还是下了心的。
指尖查词
孩子在学习的时候,通过指尖查词和句子精读功能,可以对不会的中英文单词、句子以及成语进行扫描翻译,在课本上通过指尖点击滑动等操作,辅以智能摄像头+有道AI技术+NPU芯片的配合,能够对指点的内容进行快速扫描、识别、翻译。手指一点只要0.5秒屏幕就能给出的结果,迅速而准确,不会打断孩子的学习思路和节奏。
【嗜睡检测】
基于Python和MediaPipe,嗜睡检测系统搭建代码实战
思路:疲劳驾驶的司机大部分都有打瞌睡的情形,所以我们根据驾驶员眼睛闭合的频率和时间来判断驾驶员是否疲劳驾驶(或嗜睡)。
【农作物生长状态检测】
【数字人】
【动作预测】
给出初始和结束的状态,预测两个动作间的过程
【虚拟键盘】
我们尝试了「世界上最先进的投影键盘」,觉得还是手机打字比较快
钢琴更合理
【SLAM】
【掌纹识别】
手掌之所以可以用来当做车钥匙,是因为每个人的手掌都具有唯一性,且掌静脉和表皮下静脉毛细血管无法被伪造,所以不需要担心安全问题,传感器也能提供高精度的识别。在使用手掌钥匙的时候,手掌只需要距离8-20cm即可完成识别,且支持360° 水平识别旋转角度,以及不高于 15° 的垂直识别旋转角度。
【生命游戏】
康威生命游戏(Game of Life),剑桥大学约翰·何顿·康威设计的计算机程序
life 简单生存规则衍生出与或非,一切计算机程序,我们的世界也是几个简单的规则生成的吗?
演化出各种固定的模式,与或非,计算机万物。。。
【Others Object Detection】
基于目标检测的应用
倒地识别
扶梯逆行识别
车辆超速检测(两条线-划定测速区间)
车流统计(一条线)
车辆违停滞留
高空抛物识别
考试作弊-看手机识别
道具病害识别
烟火识别
撞车识别
离岗检测
煤炭皮带偏移检测
跑冒滴漏检测
水泥厂下料口堵塞检测
垃圾桶满溢识别
打架识别
未穿反光衣-安全帽-绝缘手套-防护服-护目镜-头盔识别
原油泄漏检测
仪表读数识别
垃圾识别
漂浮物识别
路边占道经营识别
广告牌占道识别
工地裸土覆盖识别
指示灯颜色识别(红色)
睡觉检测
遗留物AI检测
传送带大块煤检测
违规区域游泳检测
植被病害检测(森林无人机视角)
货车违规载人识别
溺水识别
俯卧撑计数识别
路面积水识别
泥石流识别
未穿防护服识别
仪表读书识别
鸟类AI识别
检测框中心,画出移动轨迹
Model-centric ML vs Data-centric Ml
以模型为中心的 ML 应用程序
以数据为中心的 ML 应用程序
90%论文都是以模型为中心,AI领域,数据和模型到底哪个重要?
大模型时代,有了些新的变化
技术视野
- 可以直接识别“手”的像素点,真手像素点颜色方差小,图像的方差小;或直接向“手”打光,如果是电子屏幕显示的像,整个屏幕都会对投来的光进行反射。
- SWA是一种通过随机梯度下降改善深度学习模型泛化能力的方法,而且这种方法不会为训练增加额外的消耗,这种方法可以嵌入到Pytorch中的任何优化器类中。主要还是用于稳定模型的训练
- 一项名为“Mask DINO:Towards A Unified Transformer based Framework for Object Detection and Segmentation”的研究,扩展了DINO方法。
Mask DINO 性能优于所有现有的物体检测和分割系统。DINO是一种带有改进去噪锚盒的DETR,而DETR是Facebook AI提出的一种端到端目标检测模型,它使用了Transformer架构,提供了一种更简单灵活的目标检测方法。 - 熊越哥的分享
https://zxi.mytechroad.com/blog/leetcode-problem-categories/ - 《Data augmentation using learned transformations for one-shot medical image segmentation》
- https://github.com/Dod-o/Statistical-Learning-Method_Code
- 1080在手机上怎么显示的
- Spatial Transformer Networks
- MoCo v1 SimCLR MoCo v2,平滑学习进行约束,变化不要太剧烈,不要跑太快,一个快后面跟着得就会很迷茫
- L2 怎么理解 尺度和方向的差别,softmax 也是归一化
- 正则化,最大释然和最大后验法,后者多乘了一个条件概率
- Self-Supervised Geometric Correspondence for Category-Level 6D Object Pose Estimation in the Wild》(arXiv 2022)
- Task-Specific Context Decoupling for Object Detection》 (arXiv 2023)
- POPE: 6-DoF Promptable Pose Estimation of Any Object, in Any Scene, with One Reference》 (arxiv 2023)
- TTA-COPE: Test-Time Adaptation for Category-Level Object Pose Estimation
- Less is More: Focus Attention for Efficient DETR》 (ICCV 2023)
- Detecting Everything in the Open World: Towards Universal Object Detection
- SecondPose: SE(3)-Consistent Dual-Stream Feature Fusion for Category-Level Pose Estimation》 (arxiv 2311)
- 《Augmentation for small object detection》
- 旋转框通常出现在场景文本,摇杆地图,车牌检测,点云鸟瞰图中,通常需要精确的定位
表达形式,- 五参数
x,y 中心,h,w长宽,旋转角度 α \alpha α - 8参数
四个顶点坐标
- 五参数