太棒了！一文详解数据科学 10 大顶级项目

本文链接：https://blog.csdn.net/weixin_38037405/article/details/109557265

随着大数据、人工智能、物联网的发展，数据科学成为了一个快速增长的技术领域，这也促使了成千上万的人试图进入数据科学的世界。

我们知道 GitHub 无疑是开放源代码的最佳场所，在 Github 上数据科学充满了各种工具，框架，技术和算法。

在本文中，我将详细介 10 大顶级数据科学项目及其实例项目。相信这些的开源项目对于从事或者想要进入数据科学的小伙伴非常受益。

1、ALBERT

GitHub：https://github.com/brightmart/albert_zh
Stars：2.9 k
Forked By：582

ALBERT 是一款轻量级 BERT，旨在通过克服全尺寸 BERT 的内存限制，实现更好的性能。ALBERT 比常规 BERT 使用较少的参数。

虽然谷歌的 BERT 允许任何人以高精度训练自己的模型，但 ALBERT 在实现更高的性能方面已经领先了一步，只需 10% 的参数。BERT和 ALBERT都允许您在GPU或TPU上训练你的模型。如果您的任何任务需要使用 NLP，我强烈建议你尝试一下 ALBERT。

2、Tiler

GitHub：https://github.com/nuno-faria/tiler
Stars:4.4k
Forked By:247

Tiler 是一个有趣和令人兴奋的开源项目，它是使用 Python 构建的，允许任何人创建有趣和独特的图像。

这个项目的工作方式是，它为你提供了一系列不同颜色的形状，这些形状以不同角度旋转，以创建更复杂的图像，你需要做的就是传递你想要的图像。

Tiler 提供许多开箱即用的形状，如波浪、十字绣、圆圈、乐高、心等，颜色有多种颜色。Tiler 的设计非常具有灵活性。

3、PLMpapers

GitHub：https://github.com/thunlp/PLMpapers
Stars：2k
Forked By:280

在这里插入图片描述

此数据科学存储库侧重于为一系列问题提供各种预训练模型。对于未启动的预培训模型来说，预先训练的模型是转移学习的生命线，在那里，人们可以使用其他人的模型进行对类似问题进行训练的细微修补。

预先培训的模型对于将培训成本降至最低至关重要，因为它们可以帮助您无需花费在任何专用培训硬件（GPU）上，同时帮助您减少花费的总时间。

存储库是一百多个模型的研究论文，可以帮助您更深入地了解问题及其建议的解决方案。存储库还包含一个信息图，用于表示这些 PLM 之间的关系。

4、TubeMQ

GitHub：https://github.com/Tencent/TubeMQ
Stars：2k
Forked By:392

如果你曾经对大型公司如何实时地将数据从一个站点移动到另一个站点感兴趣，这个项目也许能够让您了解一下这个秘密。TubeMQ 是一个企业级分布式消息队列（MQ）系统，大约一年前开放，现在被 Apache 软件基金会采用，旨在提供高性能存储和传输极大的数据量。

TubeMQ 可通过提供吞吐量、延迟、稳定性、性能和成本方面的若干关键优势，同时保持完全可扩展性，帮助组织占上风。该项目的其他显著功能包括功能丰富的仪表板、身份验证和授权、对大数据和流式处理生态系统的支持、与传输协议（如 TCP 和 SSL）兼容、高效的推送和拉取消费模型等等。

5、DeepPrivacy

GitHub：https://github.com/hukkelas/DeepPrivacy
Stars：919
Forked By:131

现代世界与互联网紧密相连，"隐私"一词已经失去意义，现在只是一个神话。你使用的每个应用程序或服务都在某种程度上跟踪您的一举一动，并在你提出要求之前为您提供更好的服务和建议。

DeepPrivacy 就是这样一个 GitHub 项目，旨在自动对图像中的面进行匿名化。DeepPrivacy 使用生成对抗网络（GAN），通过使用边界框来识别敏感区域和稀疏姿势信息来指导各种情况下的网络，实现面部匿名化。

该项目使用一流的检测模型，掩码-R-CNN用于生成稀疏姿势信息，DSFD用于人脸识别。如果你有兴趣研究该论文，地址在上面已给出。

6、DeepCTR

GitHub：https://github.com/shenweichen/DeepCTR
Stars:752
Forked By:222

该数据科学项目是解决通过预测用户点击率（CTR）来定位用户正确推荐或搜索结果的问题，在推荐算法中应用非常广泛。

DeepCTR 项目提供对许多易于使用、模块化和可扩展的深度学习模型的访问，这些模型包含大量核心组件层，可用于构建自定义模型。许多支持的模型包括：

DeepFM
Product-based Neural Networks
Deep and Cross Network
Deep Interest Network
FLEN
FgCNN
Convolutional Click Prediction Model

7、FaceRecognition

GitHub：https://github.com/alexattia/Data-Science-Projects/tree/master/FaceRecognition
Stars:308
Forked By:260

人脸识别工具可用于人的形象面部数据，以分析和提取许多关键信息片段，如性别、年龄等。利用最新技术的当前工具可以从视频和图像中识别人脸。

使用 HOG 算法在图像中查找人脸，以获得面部结构的基本表示形式
剪切、旋转、缩放等变换，使眼睛和嘴居中心
使用训练有素的神经网络进行深度学习对检测到的面部进行编码
最后，使用分类器（LVM 或任何其他）查找数据库中与测试映像最接近的人

在这里插入图片描述

8、mexican-government-report

GitHub：https://github.com/PhantomInsights/mexican-government-report
Stars:455
Forked By:69

该项目使用 Python 构建，提供了自然语言处理（NLP）系统如何为文本挖掘工作实践经验。该项目在墨西哥政府 2019 年报告中进行演示，包括一系列活动，以从报告中干净地提取文本，并在以后进行可视化。

为此，该项目使用多个 Python 库。下面将简要说明每个库：

PyPDF2：用于从 PDF 文件中提取文本。
spaCy：用于将提取的文本传递到 NLP 管道中。
NumPy：用于快速矩阵操作。
pandas：用于分析和从数据集中获取见解。
matplotlib：用于创建图形和绘图。
seaborn：用于增强 matplotlib 绘图的风格。
geopandas：用于绘制地图。

9、stringsifter

GitHub:https://github.com/fireeye/stringsifter
Stars:415
Forked By:64

此数据科学项目旨在实现应用程序安全，目标用户大多是恶意软件分析师和网络安全专家。StringSifter 项目利用 Python 和机器学习中的字符串程序的力量，使在各种大小的程序二进制文件中查找一系列隐藏字符串更加容易。

这些隐藏的字符串通常与恶意使用，通过提供它们作为字符串西夫特程序的输入，几乎可以零麻烦地找到这些隐藏的字符串。将列表输入程序后，它会深入二进制文件，向分析师报告它们的任何相关结果。作为一个易于使用的工具，安全专家可以毫不费力地将 StringSifter 集成到他们现有的恶意软件分析堆栈中。用户还可以选择将 StringSifter 与 Docker 映像一起使用，因为所有必需的命令行实用程序都随时可用。