2022 年年度最佳开源软件

https://obsproject.com/

9074ffcdcc5728b859ba9b5c61fe7a2f.png

OBS Studio 是一款用于直播和屏幕录制的软件,为高效捕获,合成,编码,记录和流传输视频内容而设计,支持所有流媒体平台。快捷键可让试图平滑切换,甚至还有画中画和实时字幕的新功能。

Shotcut

=======

https://shotcut.org/

4366a3fe433ffabf1e3825c8f6ac9bdb.png

Shotcut是一个强大的视频编辑工具。Shotcut具有中文版支持,可在Windows,MacOS,Linux,BSD等操作系统上运行,Shotcut具有数百种音频、视频格式,以及编解码器,且无需导入,可直接编辑。

Weave GitOps

============

https://github.com/weaveworks/weave-gitops

0ddcbbb3996ae99d1e0bb3b1525bfd02.png

Weave GitOps 是一个GitOps工具。其目的是简化DevOps的工作流程,通过声明配置使Kubernetes更加稳定和安全。Weave GitOps 基于 云原生基金会的 Flux。

Apache Solr

===========

https://solr.apache.org/

f72be5532bfbaa71aebcbb5b9aa6e3c4.png

Apache Solr 是基于 Lucene 的全文搜索服务器,也是最流行的企业级搜索引擎。Solr 放弃了开源的许可证,不过现在仍然是免费的。Solr 可集群部署、可在云端部署,甚至包括 LTR 算法,可自动调整加权结果。

MLflow

======

https://mlflow.org/

b3faddcc2a39d4fced2f7fd4f52570a0.png

MLflow 是由 Apache Spark 技术团队开源的一个机器学习平台。MLflow 由 Databricks 创建,并由 Linux 基金会托管,是一个 MLOps 平台,可让用户跟踪、管理和维护各种机器学习模型、实验及其部署。MLflow提供了记录和查询实验(代码、数据、配置、结果)的工具,将数据科学代码打包成项目,并将这些项目接入工作流程。

Orange

======

https://orangedatamining.com/

6d63730993712f07cb950b2128f40e4c.png

Orange 是一款用于开源机器学习和数据可视化的工具。Orange与 R Studio 和 Jupyter等程序化或文本工具相比,Orange 更直观易操作。Orange 包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。

Flutter

=======

https://flutter.dev/

591dd6b6ba0aa5c43f9c13dca5ffb31b.png

Flutter是谷歌推出的一个新用于构建跨平台的手机、网页、桌面,嵌入式设备应用的SDK。Flutter 的组件,比如,滚动条、导航、图标和字体,整合了IOS和安卓平台的差异。

Apache Superset

===============

https://github.com/apache/superset

f682eccabde631a0992a2af5ba0e6c99.png

Apache Superset是一个现代的、轻量级可视化BI分析工具。Apache Superset在可视化、易用性和交互性上非常有特色,用户可以轻松对数据进行可视化分析。而且Apache Superset 已经达到企业级商业软件的水平。

Presto

======

https://prestodb.io/

05d1a3746939699ef33ae6f1d4bcee4e.png

Presto 是一个开源的分布式 SQL 引擎,用于集群中的在线分析处理。Presto 可以查询各种各样的数据源,从文件到数据库,并将结果输出到BI和分析环境。更重要的是,Presto 可以在 Hive、Cassandra、关系型数据库中进行查询,而且Presto 还可以结合多个来源的数据查询。

脸书、Uber、推特和阿里巴巴创立了 Presto 基金会。其他成员现在包括 Alluxio、Ahana、Upsolver 和英特尔。

Apache Arrow

============

https://arrow.apache.org/

dcffda4356ebc06a180bb0bf258f160f.png

Apache Arrow 是一个列式内存分析层,旨在为CPU和GPU上加速大数据的分析。它包含了一套平面和分层数据的典型内存表示,Arrow 内存格式支持零拷贝读取,并且不必序列化的情况下访问数据极快。目前Apache Arrow支持的语言包括 C、C++、C#、Go、Java、JavaScript、Julia、MATLAB、Python、R、Ruby 和 Rust。

InterpretML

===========

https://interpret.ml/

1ec5bd4e32ed758482ee9b9a6c8fa340.png

InterpretML是微软推出的可解释机器学习包。其中包含了几个最先进的机器学习可解释性技术。InterpretML提供了两类解释性类型:明箱(glassbox) 模型和黑箱(blackbox)模型。InterpretML 可让实践者通过在一个统一的 API 下,借助内置的可扩展可视化平台,使用多种方法来轻松地比较可解释性算法。InterpretML 也包含了可解释 Boosting 机(EBM)的首个实现,这是一种强大的可解释明箱模型,可以做到与许多黑箱模型同等准确。

Lime

====

https://github.com/marcotcr/lime

42aa7620358bbb80580fdea0fcaa508b.png

Lime(Local interpretable model-agnostic explanations 局部可解释模型-不可知解释的缩写),Lime用于表格或图片的解释机器学习的分类器。Lime 能够解释两个或更多类的黑盒分类器。分类器实现了一个函数,该函数接收原始文本或 numpy 数组并输出每个类的概率。

Dask

====

https://dask.org/

d9b9d437765dd18b4d6b13209f90065d.png

Dask 是一个用于并行计算的开源库,可将 Python 包扩展到多台机器上。Dask 可将数据和计算分布在多个 GPU 上,即可在单一系统也可在多节点集群中运行。Dask 可与 Rapids cuDF、XGBoost 和 Rapids cuML 集成,用于 GPU 加速的数据分析和机器学习。Dask还可与 NumPy、Pandas 和 Scikit-learn 集成进行并行化工作。

BlazingSQL

==========

https://blazingsql.com/

0c456459aec6580586bf56982d0634b8.png

BlazingSQL 是一个基于 Rapids 生态系统构建的 GPU 加速 SQL 引擎。BlazingSQL基于 Apache 2.0 许可证开源。BlazingSQL是cuDF的SQL接口,具有支持大规模数据科学工作流(包括提取,转换,加载)和企业数据集的各种功能。

Rapids

======

https://rapids.ai/

31a930b70c1b95f75a260d2dece571af.png

Nvidia 的 Rapids是由英伟达开源的一款开源机器学习GPU加速平台。Rapids 使用英伟达 CUDA 基元进行底层计算优化,通过Python 将 GPU 的并行和高带宽内存以接口方式向外开放。Rapids 依赖于 Apache Arrow 柱状内存格式,包括cuDF(类似 Pandas 的 DataFrame 库);cuML(机器学习库集合,提供 Scikit-learn 中大多数算法的 GPU 版本);以及cuGraph(类似 NetworkX 的加速图分析库)。

PostHog

=======

https://posthog.com/

db2c4d4a3e696f13b57330df9c9a1c2b.png

PostHog 是一个为开发者构建的开源产品分析平台。自动收集网站或应用程序上的每个事件,无需向第三方发送数据。PostHog 提供基于用户事件的分析,捕获网站的使用数据,统计各用户在网站中的具体操作。PostHog会自动捕获点击次数和综合浏览量,以分析网站用户在做什么,而无需手动推送事件。

LakeFS

======

https://lakefs.io/

808b4d80a8a3a7b09a61a8628d5de507.png

4b5eb6bd4210fb95863c80ca1293181a.png

LakeFS 提供了一种"像管理代码一样管理数据湖"的方式,独特引入类似Git功能来管理数据的版本。LakeFS 可以帮助用户创建独立、零拷贝(Zero-copy)的数据分支,且在运行、测试和建模分析中,又不存在破坏共享对象的风险。与Git类似,LakeFS 的数据中会带有提交记录、元数据字段和回滚等信息,此外还有hooks,即在分支合并到主分支前,hooks会检查数据,确保完整性和质量。Amazon S3 和 Azure Blob已在使用 LakeFS。

Meltano

=======

https://meltano.com/

dfab5999c8c13f629339be81d54d8380.png

Meltano始于2018年GitLab的内部项目,服务于 GitLab 数据管理。2021年从GitLab独立出来成为一个初创公司。

Meltano是一款免费 DataOps 时代的ETL工具,旨在替代替代传统 ELT的工具,ELT是指数据提取、加载、转换操作的统称。

Meltano特点是开源、自托管、CLI(命令行)、可调试和可扩展。

Meltano创建管道即代码的概念,Meltano项目可进行版本控制、代码审查、持续集成和部署 (CI/CD )以及容器化等。

Trino

=====

https://trino.io/

24e730c6f75a914601176c64bd69004b.png

Trino 用于大数据分析的快速分布式 SQL 查询引擎

2019年PrestoDB的开发者创建了一个名为PrestoSQL项目分支。由于所属基金会的转移,PrestoSQL于2020年12月更名为 Trino。

Trino是一款用于大数据分析且性能优越的分布式 SQL 分析引擎。Trino 可同时对EB 级数据湖和海量数据仓库进行高效查询。Trino 符合 ANSI SQL 的查询标准,可与 R、Tableau、Power BI、Superset 等 BI 工具配合使用。可在 Hadoop、S3、Cassandra、MySQL 的数据仓库中联合查询。

StreamNative

============

https://streamnative.io/

84956690c5373ddc8e5ef6d448fdbc1c.png

StreamNative 是一款弹性部署且可扩展的消息和事件流平台,大大简化了实时报告和分析工具以及企业应用流的数据管道架设。StreamNative 将 Apache Pulsar 分布式流处理架构与 Kubernetes 和混合云支持等,以及企业级功能、大型数据、认证和授权、性能监控等工具相结合,既简化了应用程序的开发,又简化了流数据应用的部署和管理。

Hugging Face

============

HTTP

  • HTTP 报文结构是怎样的?

  • HTTP有哪些请求方法?

  • GET 和 POST 有什么区别?

  • 如何理解 URI?

  • 如何理解 HTTP 状态码?

  • 简要概括一下 HTTP 的特点?HTTP 有哪些缺点?

  • 对 Accept 系列字段了解多少?

  • 对于定长和不定长的数据,HTTP 是怎么传输的?

  • HTTP 如何处理大文件的传输?

  • HTTP 中如何处理表单数据的提交?

  • HTTP1.1 如何解决 HTTP 的队头阻塞问题?

  • 对 Cookie 了解多少?

  • 如何理解 HTTP 代理?

  • 如何理解 HTTP 缓存及缓存代理?

  • 为什么产生代理缓存?

  • 源服务器的缓存控制

  • 客户端的缓存控制

  • 什么是跨域?浏览器如何拦截响应?如何解决?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值