内容来源:系列教程 (showmeai.tech)
ShowMeAI日报系列全新升级!覆盖AI人工智能 工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文 等方向。
本文整理了ShowMeAi日报上的部分内容,有关python学习、深度学习、项目、面试、各种易用的工具框架、资源,等等。
博文&分享
👍『数据科学面试』题集
作者从 2022 年 5 月份开始,在 LinkedIn 上发布每日数据科学面试的问题及答案,并将所有内容汇总在了这个项目页面中。目前分为 Machine Learning / 机器学习、Deep Learning / 深度学习、Statistics / 统计、Probability / 概率、Python、SQL & DB、简历等7个主题、近百个问答。
👍『计算机』自学指南
随着欧美众多名校将质量极高的计算机课程全部开源,自学 CS 成了一件可操作性极强的事情。作者梳理了自己的学习路径,希望帮助刚刚接触计算机的小白,凭借开源社区的优质资源,成长为一个有扎实的数学功底和代码能力的程序员。
👍 机器学习 / 计算机视觉 / 计算机科学『速查卡片集』
作者制作了 200 多张知识卡片,包括『计算机科学』『机器学习』『计算机视觉和深度学习基础』『计算机视觉和深度学习精选专题』4个主题,用以回顾多年的 ML 研究、课程和学习中的所有内容,并为机器学习工程师的面试做准备。作者在 2022 年拿到了谷歌、特斯拉、三星、Motional、UiPath 和 TikTok 等多家公司的Offer!如果你已经有较好的ML基础,需要系统复习和查漏补缺,那推荐学起来呀!
👍 『机器学习』核心概念的可视化解释
MLU( Machine Learning University,机器学习大学)是亚马逊的一项教育计划,旨在教授机器学习理论和实际应用。MLU-Explain 作为计划的一部分,通过可视化这种信息丰富且有趣的方式,讲解了机器学习的重要概念。交互页面的设计非常酷!
👍 104个『Python 数据科学实战』项目
python.plainenglish.io/85-data-sci…
作者整理了 104 个数据科学实战项目,对于初学者提升概念理解、操作技能等都非常有帮助!
👍 『深度学习』应用与实战书籍推荐
本文作者 Jakub Langr 具备丰富的机器学习领域实践和授课经验,推荐了5本适合进行深层次进阶学习的学习,并附上了推荐理由。
- 『Deep Learning with Python』,由深度学习框架 Keras 的创作者所著,将内容讲解得非常易于理解,适合新手入门。
- 『Deep Learning for Coders with Fastai and Pytorch: AI Applications Without a PhD』作者 Jeremy Howard 的 fast.ai 实战课可谓全球知名。本书以 fast.ai 课程为基础,侧重实战,学完就能掌握自己的项目!
- 『How to Measure Anything: Finding the Value of Intangibles in Business』并非技术书籍,但阐述了机器学习的应用场景,也加入了作者的很多深刻思考。
- 『Deep Learning』真正的学术王者!作者 Ian Goodfellow 等将基本原理讲得严谨且清晰,也因此备受好评。因为封面被昵称为『花书』。
- 『Grokking Deep Learning』可以帮你在坚实、实用的基础上提出新的调整或模型类型,理清被卡住的环节。这是一本真正带你直观了解深度学习的好书。
👍『ML YouTube Courses』Youtube 最新机器学习课程大合集
合集包括 Youtube 上的 35 门广受欢迎的课程,覆盖以下 9 个领域:机器学习(Machine Learning)、深度学习(Deep Learning)、自然语言处理(NLP)、计算机视觉(Computer Vision)、强化学习(Reinforcement Learning)、图机器学习(Graph ML)、多目标学习(Multi-Task Learning)、自动驾驶(Self-Driving Cars)、机器人(Robotics)。如果想在 B 站观看同主题合辑,那么推荐博客 blog.showmeai.tech/ 和 B站 space.bilibili.com/479444931。
📚 『NeRF at CVPR 2022』分享:CVPR 2022的NeRF相关成果汇总
本文作者 Frank Dellaert 是美国 Georgia Institute of Technology 的教授,同时也是谷歌AI研究科学家。他与曾经的学生、现在的 Google 同事 Andrew Marmon 一道,对 CVPR 2022 会议上与神经辐射场(NeRFs)相关的50多篇论文进行了整理汇总。NeRFs 领域的研究和论文正在井喷式增长!连作者这样的大佬都感叹『确实有点卷不动』
📚 『算法工程师-机器学习』面试题目总结
📚 『人员分析中的图谱与网络』基于R与Python,免费电子书
ona-book.org/ , github.com/keithmcnult…
Keith McNulty 在《Handbook of Graphs and Networks in People Analytics》 书中描述了网络分析技术一个有趣的应用方向——组织管理。网络分析将个人之间看似简单的对偶关系编织成一个完整的社会结构,并可以通过分析和应用网络数据来应对组织挑战。
作者做了大量努力,使得数据和代码变得简单生动——只阐述最重要的理论、大量的示例数据集和代码片段、可视化图表等。作者对于网络分析在组织中的应用方向,也非常激动人心——新员工入职、鼓励多样化的合作、寻找有效的沟通策略、确定更好的组织结构、寻找潜在的领导者等等。
📚 『Python小项目全集』免费书电子书
inventwithpython.com/bigbookpyth…
这本《The Big Book of Small Python Projects》书包含 81 个 Python 练手小项目合集,包括游戏、动画、迷宫和模拟等。作者 Al Sweigart 『授之以轮』,书的内容设计保证了高趣味性和实用性,带你看懂每个项目的代码原理,还鼓励你对轮子疯狂魔改~
工具&框架
『Zotero Tag』Zotero的 Tag 管理插件
Zotero Tag 是一个 Zotero 附加的标签管理插件,自动为新项目添加标签并在阅读后删除、支持带标签的批处理、支持自定义规则进行标签管理。简单安装插件后,右键单击集合中的任何项目,就可以批量添加/删除标签啦!
🚧『Zotero Better Notes』Zotero 内置 note 功能扩展
从配图可以看到,页面和菜单栏设计简洁,但其实功能非常完备。除了常规的 Note 功能外,Zotero Better Notes 的一些拓展功能非常亮眼,主笔记的外部文档插入、高亮批注、超链接插入PDF、插入笔记、引用、子笔记、大纲模式的思维导图等功能,都值得尝试!就呈现效果的丰富度而言,Zotero Better Notes 更像是一个富文本编辑器了。
🚧 『doccano』基于网页的开源协同多语言文本标注工具
doccano 是一个开源人工文本标注工具,可以为 Named Entity Recognition 命名实体识别、Sentiment Analysis 情感分析、Tanslation 文本翻译、Intent Detection and Slot Filling、Text to SQL、Image Classification 图像分类、Image captioning 图像说明、Object Detection 目标检测、Polygon Segmentation 多边形分割、Speech to Text 语音到文本等任务提供标注功能。只要创建一个项目,上传数据并开始标注,就可以在几个小时内建立一个数据集。
🚧 『ExplainableAI.jl』使用 Julia 和 Flux.jl 的可解释人工智能
ExplainableAI.jl 实现了神经网络的可解释性方法和可视化,类似于 PyTorch 的 Captum、Zennit 以及Keras 模型的 iNNvestigate。Repo 提供了一个示例,用 LRP 解释为什么使用一个预先训练好的小型 LeNet5 模型将 MNIST 数字归类为9。
🚧 『yolov7-opencv-onnxrun-cpp-py』YOLOv7目标检测部署
Repo 分别使用 OpenCV、ONNXRuntime 部署 YOLOv7 目标检测,一共包含14个 onnx模型。依然是包含 C++ 和 Python 两个版本的程序。
🚧 『Superset』数据探索 & 数据可视化平台
Apache Superset 是一个企业级 BI 平台,可以使用户快速、轻量、直观地探索和可视化数据,具有无代码快速构建图表、支持 SQL 编辑器、丰富美观的可视化图库、可程序化定制的 API 等功能。Repo 页面和官网(superset.apache.org)提供了多样的下载安装方式和详细的教程。
🚧 『BasicSR-docs』BasicSR 开源库的中文解读文档
BasicSR(Basic Super Restoration)是一个基于 PyTorch 的开源图像视频复原工具箱,功能包括超分辨率、去噪、去模糊、去 JPEG 压缩噪声等,GitHub 已经有 3.6k Star!BasicSR-docs 是 BasicSR 中文解读文档的 LaTex 源码文件,并提供了中文版 PDF 文档下载(公众号『ShowMeAI研究中心』回复关键字『日报』也可以获取)。
🚧 『RESP』从 Google Scholar、ACL、ACM、Arxiv、PMLR 等获取科研论文的引用情况、相关论文等
RESP(Research Papers Search),可以从谷歌学术获取单篇论文的所有引用信息、相关论文,从 connectedpapers.com 获取所有相关论文,基于关键词从不同来源获取相关论文。Repo 提到的源包括以下这些:Google Scholar、Acl、 Pmlr 、Arxiv、Semantic Scholar、NeurIPS、IJCAI、openreview、thecvf。
🚧 『LeetCode Curation Topical』技术面试准备清单
针对面试过程中容易被问到的数据结构 LeetCode 题进行归类整理:Arrays/Strings、Linked Lists/Deques、Trees、Graphs、Recursion/Backtracking、Dynamic Programming、Design & Implementation、Greedy 等。
🚧 『flashlight』快速、灵活的C++机器学习库
Flashlight 是一个快速、灵活的机器学习库,由 Facebook AI 语音团队及Torch、Deep Speech 的创作者完全使用 C++ 编写。其核心功能包括内部可修改、占用空间小、默认功能高性能、效率和规模。
🚧『Asent』基于spaCy的情感分析库
Asent 是一个基于规则的 Python 情感分析库,使用一个包含正面/负面评价的词汇字典 & 一系列规则,来确定一个词、句子或文件是正面还是负面的。目前的规则考虑了否定词(如 不高兴/not happy)、增强词(如 非常高兴/very happy),并考虑了对比性连接词(如 但是/but),以及其他强调标记(如感叹号、大小写和问号)。Repo 详细介绍了情感计算的流程,配图是例句『i am not very happy』的运行过程与解释。
🚧『AQP』语音/音频的质量评估平台
AQP (Audio Quality Platform,音频质量平台),是一个高度模块化的 pipeline,非常易于使用,可以对语音/音频的各类质量指标 (如 ViSQOL、PESQ、Warp-Q 等) 进行客观的测试和比较,以提高研发的稳健性、可重复性和开发速度。
🚧『Gorse』用 Go 编写的开源推荐系统
Gorse 是一个使用 GO 语言编写的开源推荐系统。将项目、用户和交互数据导入 Gorse 后,系统将自动训练模型为每个用户生成推荐!作者总结了几个项目的特点(或者说优点),看看哪点让你心动了:
- 多源推荐:对于用户,从不同的方式(流行、最新、基于用户、基于项目和协同过滤)收集推荐项目,并通过点击率预测进行排名。
- AutoML:通过后台模型搜索自动选择最佳推荐模型和策略。
- 分布式推荐:单节点训练,分布式预测,在推荐阶段实现水平扩展的能力。
- RESTful API:为数据 CRUD 和推荐请求提供 RESTful API。
- Dashboard:提供数据导入导出、监控、集群状态检查的dashboard。
🚧 『TLNewsSpider』舆情信息获取,狠心开源企业级舆情爬虫项目
TLNewsSpider 是一个舆情信息获取与可视化平台,基于 GNE(General News Extractor,通用新闻正文抽取)模块,抽取 300 多个舆情站点的正文内容、标题、作者、发布时间、图片地址和正文所在的标签源代码等信息。 项目主干技术覆盖python、scrapy、scrapyd、scrapydweb(开源管理平台)、mysql、redis,支持任意数量的爬虫一键运行、定时任务、批量删除、一键部署,并且可以实现爬虫监控可视化、配置集群爬虫分配策略、现成的docker一键部署等功能。
🚧 『Upgini』机器学习自动化数据特征搜索/扩充库
外部数据和特征可以显著提升监督学习模型的准确度,但是费时费力。本 repo 将这个过程自动化啦——在几分钟内提升模型效果,精准扩充有用的特征!Upgini 是一个简单的特征搜索和扩充库,可以在公共数据集或社区共享的数据源中,自动检索『开箱即用』的数千个特征,并筛选、返回能提高模型预测能力的相关特征。
🚧 『PrimeQA』最先进的多语言问答(QA)开发库
PrimeQA 是基于Transformers 的开源库,可以训练最先进的回答(QA)模型。使用 PrimeQA ,研发人员既可以复现最新NLP会议论文,也可以在自定义数据中下载并运行预训练的模型。PrimeQA 支持『基于传统BM25的信息检索』『ColBERT神经网络信息检索』『基于XLM-R的机器阅读理解』『新闻&电影上的多媒体问答』,在信息检索与问答场景提供端到端解决方案。
🚧 『Chinese-CLIP』CLIP模型的中文版
本 repo 为 CLIP 模型的中文版本,帮助用户实现中文领域的跨模态检索、图像表示等功能。项目使用大规模中文数据(约2亿图文对)进行训练,并且对『open_clip project』原始项目代码在中文数据上的效果进行了优化。项目作者在持续努力中,『开源 ViT-L-14 规模 Chinese-CLIP 模型』正在训练中,后续也将提供基于 Chinese-CLIP 的图文检索demo 及其用户在自己环境中的部署流程等等~ 良心制作,值得持续关注!
数据&资源
🔥 LeetBook『图解算法数据结构』配套代码 &『剑指 Offer』Python / Java / C++ 解题代码
LeetBook《图解算法数据结构》面向算法初学者、互联网求职者设计,主要内容包括『剑指 Offer 图文题解』『数据结构与算法专栏』两部分内容,为互联网算法/软件求职者、学习者等提供一份比较完整的学习和打卡资料。
🔥 『Python3 面试』准备参考
作者在自学 Python3 进行各种面试和有趣的 leetcoding 时,构建了这个备忘单。这份小抄不求全而是抓重点,是一个 Python 高频问题子集。