No1:Pyforest
https://github.com/8080labs/pyforest
这是一个免费的Python库,使用Pyforest可在一行代码中导入所有python数据科学库。Pyforest目前可导入包括pandas、numpy、matplotlib等等众多的数据科学库。
Pyforest的使用方式也非常简单,只要使用pip install pyforest在您的计算机上安装库,就可以使用了。您可以在一行代码中导入所有流行的用于数据科学的python库:
from pyforest import *
相信你一定会喜欢上这个十分方便的Pyforest库。此外,如果你对python还不太熟悉,你应该看看下面关于python的免费课程:
Python for Data Science
(https://courses.analyticsvidhya.com/courses/introduction-to-data-science/?utm_source=blog&utm_medium=7-data-science-projects-github-showcase-your-skills)
No2:HungaBunga
https://github.com/ypeleg/HungaBunga
你如何从机器学习模型中选出最好的机器学习模型?如何确保正确的超参数值?这些都是数据科学家需要回答的关键问题。Hungabunga项目将帮助你比大多数数据科学图书馆更快地找到答案。它贯穿全部的sklearn模型,使用所有可能的超参数,并使用交叉验证对它们进行排序。
以下是如何导入所有模型的代码(分类和回归):
from hunga_bunga import HungaBungaClassifier, HungaBungaRegressor
此外,你应该看看下面关于监督机器学习算法的综合文章:
Commonly used Machine Learning Algorithms (with Python and R Codes)
(https://www.analyticsvidhya.com/blog/2017/09/common-machine-learning-algorithms/?utm_source=blog&utm_medium=7-data-science-projects-github-showcase-your-skills)
No3:Bsuite
https://github.com/deepmind/bsuite
DeepMind最近因其公布的同比巨额亏损而成为新闻焦点。但我们不可否则的是,该公司在强化学习方面的研究仍明显领先。他们把这一领域作为人工智能的未来下了很大的赌注。
近期他们最新的开源版本——bsuite来了。这个项目是一个实验的集合,旨在了解强化学习代理的核心能力。Bsuite的目标是为了实现:
- 收集信息性和可扩展性问题,这些问题可捕获高效和通用学习算法设计中的关键问题;
- 通过代理在这些共享基准上的性能来研究代理的行为;
Github存储库包含如何在项目中使用Bsuite的详细说明。您可以使用以下代码安装它:
pip install git+git://github.com/deepmind/bsuite.git
此外,如果你刚开始学习强化学习,这里有几篇论文可以帮助你:
Simple Beginner’s Guide to Reinforcement Learning & its Implementation
(https://www.analyticsvidhya.com/blog/2017/01/introduction-to-reinforcement-learning-implementation/?utm_source=blog&utm_medium=7-data-science-projects-github-showcase-your-skills)
A Hands-On Introduction to Deep Q-Learning using OpenAI Gym in Python
(https://www.analyticsvidhya.com/blog/2019/04/introduction-deep-q-learning-python/?utm_source=blog&utm_medium=7-data-science-projects-github-showcase-your-skills)
No4:DistilBERT
https://github.com/huggingface/pytorch-transformers/tree/master/examples/distillation
相信你一定听说过Bert,Bert是基于transformer架构的,它是目前最流行的、最快成为一种被广泛采用的自然语言处理框架。
但Bert的问题在于它是资源密集型的,对资源的消耗比较大。那么,数据科学家如何在自己的机器上研究Bert呢?这就要使用DistilBert了。
Distilbert,缩写为Distivated Bert,来自流行的Pythorch Transformers框架背后的团队。它是一个基于bert架构的小型廉价变压器模型。据研究小组称,Distilbert的速度提高了60%,同时保持了bert 95%以上的成绩。
这个Github存储库解释了distilbert如何与python代码一起工作。您可以在此处了解pytorch transformers以及如何在python中使用它的更多信息:
Introduction to PyTorch-Transformers: An Incredible Library for State-of-the-Art NLP (with Python code)
(https://www.analyticsvidhya.com/blog/2019/07/pytorch-transformers-nlp-python/?utm_source=blog&utm_medium=7-data-science-projects-github-showcase-your-skills)
No5:ShuffleNet Series
https://github.com/megvii-model/ShuffleNet-Series
这是一个计算机视觉项目!shufflenet是一种计算效率极高的卷积神经网络(CNN)结构。它是为计算能力非常有限的移动设备设计的。
这个github存储库包括以下多个shufflenet模型:
- shufflenet:一种非常有效的移动设备卷积神经网络
- shufflenetv2:高效cnn架构设计的实用指南
- shufflenetv2+:shufflenetv2的增强版本
- shufflenetv2.large:一个基于shufflenetv2的更深版本。
- OneShot:均匀采样的单路一步神经网络结构搜索
- detnas:目标检测的主干搜索
此外,这个链接可以帮助您更好的理解CNN:
A Comprehensive Tutorial to learn Convolutional Neural Networks from Scratch
(https://www.analyticsvidhya.com/blog/2018/12/guide-convolutional-neural-network-cnn/?utm_source=blog&utm_medium=7-data-science-projects-github-showcase-your-skills)
No6:RAdam
https://github.com/LiyuanLucasLiu/RAdam
Adam在不到两周前发布,它已经积累了1200多颗恒星。所以可想而知这个存储库做的有多好!
RAdam的开发人员在他们的论文中指出,我们在深度学习技术中所面临的收敛问题是由于在模型训练的早期阶段自适应学习率的不可接受的大方差造成的。
Radam是Adam的一个新变种,它可以校正自适应学习率的方差。这个版本带来了对Vanilla Adam优化器的一个实质性的改进,该优化器确实存在差异问题。
以下是Radam与Adam和GGD在不同学习速率下的性能比较(x轴是历元数):
你一定要看看下面的机器学习优化指南(包括ADAM):
Introduction to Gradient Descent Algorithm (along with variants) in Machine Learning
(https://www.analyticsvidhya.com/blog/2017/03/introduction-to-gradient-descent-algorithm-along-its-variants/?utm_source=blog&utm_medium=7-data-science-projects-github-showcase-your-skills)
No7:Ggtext
https://github.com/clauswilke/ggtext
这个项目是为所有的R用户准备的。尤其是那些经常使用很棒的Ggplot2软件包的人。
Ggtext包使我们能够为生成的绘图生成富文本呈现。以下是使用ggtext可以尝试的一些方法:
- 名为element_down()的新主题元素将文本呈现为down或html
- 可以在轴上包括图像(如上图所示)
- 使用geom_richtext()生成标记/html标签(如下所示)
Github存储库包含一些直观的示例,您可以在自己的机器上进行复制。Ggtext还不能通过cran使用,因此您可以使用以下命令从github下载并安装它:
devtools::install_github("clauswilke/ggtext")
想了解更多关于ggplot2以及如何在r中使用交互式绘图的信息吗?您可以参考以下链接:
10 Questions R Users always ask while using ggplot2 package
(https://www.analyticsvidhya.com/blog/2016/03/questions-ggplot2-package-r/?utm_source=blog&utm_medium=7-data-science-projects-github-showcase-your-skills)
How I Built Animated Plots in R to Analyze my Fitness Data (and you can too!)
(https://www.analyticsvidhya.com/blog/2019/04/how-built-personalized-interactive-fitness-tracker-dashboard-r/?utm_source=blog&utm_medium=7-data-science-projects-github-showcase-your-skills)