本周AI热点回顾：AI消除马赛克神器公布；Github黑暗模式正式发布；「中国AlphaFold」创生！

飞桨PaddlePaddle

于 2020-12-13 20:08:58 发布

阅读量490

点赞数

文章标签：人工智能百度大数据编程语言机器学习

点击左上方蓝字关注我们

打马赛克就安全了吗？AI消除马赛克，GitHub开源项目上线三天收获近7000星

像素化（又称马赛克）是一种常见的打码方式，通过降低图像中部分区域的分辨率来隐藏某些关键信息，比如：

最近，一个名为 Depix 的 GitHub 项目爆火，上线三天 star 量已经高达 6.9k。项目作者 Sipke Mellema 是一名信息安全顾问。

项目地址：

https://github.com/beurtschipper/Depix

Depix 能够从像素化图像截图中恢复原图中包含的文字密码。该项目适用于使用线性方框滤波器（linear box filter）创建的像素化图像。如下图所示，项目作者给出了像素化图像、恢复之后的效果和原图的对比结果：

使用 Depix 从像素化图像截图中恢复文字密码，操作也比较简单：

从截图中分割出矩形像素化 block；
在具有相同字体设置（包括文本大小、字体、颜色、hsl）的编辑器中，粘贴待处理字符的德布鲁因（De Bruijn sequence）。
给该序列截图，尽可能使用和像素化图像相同的截图工具。
执行命令：

python depix.py -p [pixelated rectangle image] -s [search sequence image] -o output.png

Depix 算法利用线性方框滤波器单独处理每一个 block 这一事实。它对搜索图像中的每一个 block 执行像素化以寻找直接匹配。

对于大部分像素化图像，Depix 尽量寻找单匹配结果，并假设这些匹配是正确的。至于周围多匹配 block 的结果被看作像素化图像中相同的几何距离，并认为这些匹配也是正确的。该过程重复多次。

在正确的 block 没有更多几何匹配后，Depix 将直接输出所有正确的 block。对于多匹配 block，Depix 将输出所有匹配的平均值。像素化常使用线性方框滤波器实现。线性方框滤波器的实现很简单，速度很快，可以并行处理多个 block。

由于线性方框滤波器是一种确定性算法，对同样的值执行像素化通常会产生同样的像素化 block。使用同样位置的 block 对相同文本执行像素化，会得到同样的 block 值。我们可以尝试像素化文本来找出匹配的模式。幸运的是，这对于秘密值的一部分同样奏效。我们可以把每个 block 或 block 组合看作一个子问题。

项目作者没有选择创建潜在字体的查找表。该算法要求在相同背景上具备相同的文本大小和颜色。现代文本编辑器还会添加色调、饱和度和亮度，也就是说存在海量潜在字体。

项目作者给出的解决方案也很简单：使用待处理字符的德布鲁因序列，将其粘贴到相同的编辑器中，然后截图。该截图可以用作相似 block 的查找图像，例如：

德布鲁因序列包括待处理字符的所有双字符组合。这很重要，因为一些 block 会重叠两个字符。找出恰当的匹配需要搜索图像中具备相同像素配置的 block。

在以下测试图像中，Depix 算法无法找到「o」的一部分。这是因为在搜索图像中，搜索 block 还包含下一个字母（「d」）的一部分，但在原始图像中这里有个空格。

创建字母的德布鲁因序列时加上空格显然会带来同样的问题：算法无法找到后续字母的恰当 block。有空格又有字母的图像需要更长的搜索时间，但结果也更好。

对于大部分像素化图像而言，Depix 似乎能够找到 block 的单匹配结果，并假设这是正确的。然后将其周围多匹配 block 的匹配结果看作在像素化图像中处于相同的几何距离，并假设这些匹配也是正确的。

在正确的 block 没有更多几何匹配后，Depix 直接输出所有正确的 block。对于多匹配 block，Depix 将输出所有匹配的平均值。虽然 Depix 的输出并不完美，但已经算不错了。下图展示了包含随机字符的测试图像的去像素化结果，大部分字符被正确读取：

信息来源：机器之心

IT男再也不担心眼「瞎」！Github黑暗模式正式发布，Reddit直接飙至4k高赞

你是否有过打开电脑被晃「瞎」的感觉？

最近，在GitHub Universe上，一款「暗黑」模式被推了出来。官方自称：「2020年宇宙新功能」。

GitHub Universe 是GitHub的年度选框产品和社区活动，聚集了构建全球最重要技术的GitHub产品专家，软件领导者和企业团队。GitHub的全球互联社区有机会聚在一起，分享最佳实践，互相学习，并了解GitHub的最新产品和功能。

黑暗模式可以让你暂时摆脱明亮屏幕的视觉过度刺激，也可以让你在文本编辑器、 IDE 和终端上获得更一致的开发体验。

设置黑暗模式的地址如下：

https://github.com/settings/appearance

Dark Mode 一经宣布，就在reddit上面获得了4k的高赞，网友也纷纷：这是有史以来最好的体验！

此外，Github还发布了非常多的新特性，感兴趣的童鞋可以戳下方链接观看：

https://www.youtube.com/watch?v=AiWjanAdD3s&t=13m22s

信息来源：新智元

与AI一起书写未来，百度吴甜入选中国最具影响力的商界女性未来榜

12月1日，财富中文网公布了“2020年中国最具影响力的商界女性(未来榜)”榜单。该榜单由全球知名财经杂志《财富》中文版评选，上榜者代表了中国商界崛起的年轻一代女性领导者，她们在各自的机构、商界、社会扮演重要角色，并有潜力在未来产生更大的影响。凭借在人工智能领域的多年深耕及持续创新突破，百度集团副总裁吴甜荣耀上榜。这是对她在人工智能领域贡献的肯定，也是对其未来在AI领域创造更大成就的潜力的认证和激励。

“中国最具影响力的商界女性”自2004年评选至今，已经引起了社会广泛关注，格力电器董事长兼总裁董明珠、长城汽车公司总裁王凤英等均上榜。而此次是《财富》首次评选“中国最具影响力的商界女性(未来榜)”，除吴甜外，登上此榜单的还包括微软公司 SharePoint及Teams中国区总经理梁戈碧，InMobi公司高级副总裁、大中华区总经理杨娟等人。

吴甜作为百度集团副总裁，截至2020年已加入百度近15年。这期间，吴甜从百度知道研发起步到今年升任百度集团副总裁，经历了从PC互联网时代，到移动互联网时代，再到今天AI时代的发展，参与了AI创新建设的各个阶段，带领团队在人工智能重要方向上取得了大量业界领先的技术成果，并广泛应用于百度重要业务和产品。

百度集团副总裁吴甜

目前，吴甜整体负责百度AI技术平台和智能云AI产品，涵盖自然语言处理、知识图谱、计算机视觉、增强现实、大数据技术、飞桨深度学习平台(PaddlePaddle)、百度大脑开放平台与生态、百度智能云AI产品以及百度输入法产品等。她所负责的飞桨是我国首个自主研发、开源开放、功能完备的产业级深度学习平台，具有开发便捷的核心框架、支持超大规模深度学习模型训练、多端多平台部署的高性能推理引擎和覆盖多领域的产业级模型库等四大核心技术。如今，飞桨已凝聚230多万开发者，服务9万多家企业，创建了超过31万个模型。作为人工智能的关键技术，深度学习技术的突破推动了AI技术的效果提升和广泛应用。不仅如此，通过对深度学习平台的迭代更新，不断降低 AI 应用的门槛，飞桨持续为推动产业智能化发展贡献关键力量，对于推动国家智能经济建设乃至经济高质量发展也有着重要的战略意义。

此外，《财富》对吴甜的评价中提到，新冠肺炎疫情期间，吴甜带领团队致力于将人工智能应用于疫情防控中，高效开发上线了系列战疫应用产品，例如检测口罩佩戴的应用、融合红外热像和图像技术的AI多人测温系统，基于CT影像的肺炎筛查与病情预评估AI系统，智能对话机器人帮助人们获取疫情信息和科普知识。2020年新冠肺炎疫情全球瞩目，人工智能技术在疫情防控工作大显身手，百度用科技支援抗疫战斗的第一线，展现了中国AI“头雁”的实力和社会责任感。

不久前，在《财富》公布的2020年度“全球40位40岁以下商界精英”榜单(Fortune 40 Under 40)中，吴甜也榜上有名。当下，时代的契机给AI的发展提供了最好的机遇，新基建加速推进，产业智能化浪潮势不可挡，而吴甜所负责的以飞桨为代表的AI平台，已经成为智能时代的重要基础设施，正在加速各行各业的智能化升级。吴甜将与AI一起，为商界书写未来。

信息来源：腾讯新闻

「中国AlphaFold」创生！他用AI 提速生物制药，获新一轮近亿美金融资

「这将改变一切」。几天前，谷歌旗下公司DeepMind推出的深度学习算法AlphaFold，夺冠蛋白质3D结构预测比赛，业界为此兴奋不已。

这个壮举同时宣告了两件事：困扰生物界50年的蛋白质折叠难题被破解了；生物制药或将成为AI最新的疆域。

近期，一家AI制药公司再度「破圈」走进大众视野：AccutarBio宣布完成近亿美金的新一轮融资，由依图科技、春华资本、鼎晖投资、IDG资本联合投资。

作为AccutarBio的A轮领投方，IDG资本合伙人周全对AccutarBio的评价说：「AccutarBio公司拥有着业界最强的AI+制药的综合团队，开发了业内领先的全套临床前AI解决方案，并有多个药物开发管线将于明年进入临床试验，成功地打通了从人工智能药物设计到临床候选分子的全路径。」

与AlphaFold类似，AccutarBio也是一个关键比赛的冠军缔造者——激酶抑制剂类药物亲和力预测挑战赛（DREAM Challenge），这是生物医药领域最具影响力的开放数据建模旗舰竞赛，对药物研发更具直接指导意义。

但又与AlphaFold略不同，在蛋白质结构预测领域取得突破性胜利的AlphaFold，距离将技术真正落地到临床还需时日，而AccutarBio发力于端对端药物研发，已经深入在候选药物从IND（临床试验审批）申报到临床实验阶段。

团队成功地运用了当年研发的药物和靶点结合的3D构象预测及结合强度的定量预测模型，并基于此思路解决制药领域中关于先导药物的发现、优化和提高靶点选择度等核心问题，取得了各个主要技术指标包括皮尔森(Pearson)和斯皮尔曼(Spearman)相关性系数、F1分数(F1-Measure)、平均ROC曲线下面积(AUC)第一名的成绩。

将人工智能与生物医药相结合，并不是一件容易的事。

AccutarBio是全球第一个把图卷积神经网络（Graph Convolution Neural Networw）的网络结构用于药物化学性质预测的团队。团队提出的针对药物化学的深度神经网络（Accutar Chemi-Net）比传统方法在预测准确率上显著提高。

美国的国际互联网公司如「微软」、「谷歌」自然早就嗅到了味道，开始布局AI在癌症方面的研究。

如微软早在2019年就与杰克森实验室（Jackson Laboratory，JAX）合作，利用实验室开发的「临床知识库（Clinical Knowledgebase，CKB）」来储存、分类和基因组数据，以求更有效地分享临床试验和治疗方案的信息。

而谷歌自然也不落后，在今年年初谷歌公布的一项研究结果显示「人工智能在乳腺癌检测方面的准确率做的比人类医生更高」。

在实践中，谷歌的研究发现，与人类医生相比，人工智能不仅准确率更高，而所需的信息也更少——有时仅依靠X射线图，就可以完成诊断。

在一个可期的未来中，全球数百万的患有乳腺癌的女性都能及时地发现乳腺癌并提早治疗。

除了互联网软件公司，各大硬件厂商也纷纷加入这一技术应用的大潮流，如「英伟达」和「英特尔」等公司。

英伟达作为全球第一的GPU厂商，也拿出了自己的看家本领，在图像识别上下足了功夫。

为了帮助缓解泌尿病理学家的压力，减少工作量，统一分级，英伟达提出了一个基于深度学习的解决方案，用于检测前列腺癌并进行分级。

据英伟达官方称，该算法的准确率在0.997和0.999之间，与人类病理学家的准确率水平0.96相当。

信息来源：新智元

Kaggle 年度报告出炉：数据科学家年轻多金，薪资近百万

数据分析竞赛平台 kaggle，近期针对平台用户进行了一项调查，涉及从业者基本信息、薪资水平、工作经验等多个维度。

对 20,036 名 Kaggle 用户的反馈进行数据清洗后，kaggle 最终针对 13%(2675 名)的受访者编制了这份报告。这些受访者都是在职的数据科学家，或其他支持数据科学和机器学习的职位。

kaggle 历时一个月，完成了此项调查报告

目前，最近调查报告已出炉。从这个报告中，我们可一览当前机器学习与数据科学从业者的全貌，以及相关企业在这方面的人员雇佣、资金投入状况等，一窥该行业最新发展趋势。

报告精炼版：数据科学er的群体画像

性别、年龄与学历分布

该领域从业人员男多女少，男女比例约为 5:1
35 岁是个分水岭，大部分受访者小于 35 岁
一半以上的受访者拥有研究生学位

教育背景和工作经验

大多数数据科学家走出校门后，仍坚持学习新技术
大多数数据科学家编程时间少于 10 年
一半以上的数据科学家，拥有机器学习的经验不足三年
居住美国的数据科学家的工作薪水，明显比其他国家同行更多

技术相关调查

相比 2019 年，使用云计算的数据科学家更多了
Scikit-Learn 是使用最多的机器学习工具，有 4/5 的数据科学家在用
Tableau 和 PowerBI 是最流行的商业智能工具

数据科学家从业者仍然存在巨大的性别比例失衡，超过八成都是男性。

数据科学家的年龄一般在 20 岁左右或 30 岁出头，约 60% 在 22 岁至 34 岁之间。只有五分之一的专业数据科学家年龄在 40 岁以上。

在参与此次 Kaggle 年度调查的数据科学家中，印度的数据科学家占 22%，而美国的占 14.5%，两者远远超过第三位的巴西（低于 5%）。

报告因为各项因素，并未将中国明确列入，但排名第三的 Other 的数量不低，也许是为纳入有效统计结果的中国用户。

调查显示，与往年一样，研究生学位仍然是数据科学家的标准，超过 68% 的数据科学家拥有硕士或博士学位。只有不到 5% 的数据科学家没有高中以上学历。

数据科学和机器学习正在迅速改变，所以受访者中，超九成仍会继续保持学习。其中，大约 30% 的人选择了传统的高等教育课程，更多的人则通过在线资源学习。

在本次调查中，Coursera、Udemy 和 Kaggle Learn 是最常见的学习平台。

受访者中，大多数数据科学家都至少有几年的编程经验。甚至，超过 8% 的数据科学家从上个世纪，也就是至少 20 年前，就开始编程了。只有不到 2% 的数据科学家声称从来没有写过代码。

从全球来看，美国数据科学家的编程经验要丰富得多。在美国，37% 的人从事编程工作 10 年以上，而全球的话，这个比例只有 22%。

编程经验对于数据科学家来说较为重要

kaggle 报告：

https://storage.googleapis.com/kaggle-media/surveys/Kaggle%20State%20of%20Machine%20Learning%20and%20Data%20Science%202020.pdf

信息来源：HyperAI超神经

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础，是中国首个开源开放、技术领先、功能完备的产业级深度学习平台，包括飞桨开源平台和飞桨企业版。飞桨开源平台包含核心框架、基础模型库、端到端开发套件与工具组件，持续开源核心能力，为产业、学术、科研创新提供基础底座。飞桨企业版基于飞桨开源平台，针对企业级需求增强了相应特性，包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业，提供零门槛、预置丰富网络和模型、便捷高效的开发平台；BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。

END