机器学习
文章平均质量分 90
数据工程与机器学习
这个作者很懒,什么都没留下…
展开
-
机器学习:如何快速寻找性能最佳的模型
设想一下您要测试给定数据集是否具有足够的特征来训练机器学习算法,或者在给定数据集上测试不同算法的性能,这两种情况在数据科学领域非常普遍。通常情况下,要测试特征是否有效,可以训练没有正则化的模型,并验证损失函数是否接近零。使用哪种算法?该问题的答案类似于探索性数据分析(EDA)的过程。进行探索性数据分析可以深入了解数据集。同样,有几种方法可以找到最适合该数据集的最佳算法,但这通常需要在循环中迭代多个模型,这可能很耗时。要克服此限制,可以使用lazypredict(Python库)作为选择最佳性能算法原创 2021-04-23 10:36:15 · 953 阅读 · 1 评论 -
数据科学:如何用docker部署FastAPI应用
在本文中,我们将讨论FastAPI和Docker。然后,我们将使用这些技术在GCP(谷歌云平台)上快速轻松地创建和部署API接口应用。什么是FastAPI?FastAPI是一种现代,快速,高性能的网络框架,基于标准Python类型提示并使用Python 3.6+构建API。FastAPI基于Pydantic和Starlette。FastAPI使用Pydantic定义架构并验证数据。Starlette是轻量级的ASGI框架,非常适合构建高性能的异步服务。其他python微服务框架不容易与SQLAlc原创 2021-01-05 10:02:28 · 843 阅读 · 0 评论 -
PyCaret和Streamlit:快速创建和部署数据科学应用
建立和部署机器学习模型从未如此简单。现在,有许多框架和库帮助我们仅用几行代码来构建机器学习模型,PyCaret是最好的工具之一,而最近非常流行的Streamlit可用于快速创建和部署Web应用程序。在本文中,我们将使用这两个库来创建一个数据科学Web应用程序。我们将使用PyCaret构建葡萄酒质量分类器。接下来,使用Streamlit创建和部署葡萄酒分类器。您将惊讶于构建分类器并部署Web应用是如此简单和快捷。让我们开始吧!本文来自《数据黑客》,登录官网可阅读更多精彩资讯和文章。加载和预处理数据我们原创 2020-12-28 09:42:02 · 1200 阅读 · 0 评论 -
数据科学:7个步骤解决任何数据科学问题
1. 入门在外人看来,数据科学似乎是一门庞大而模糊的学科。当今的数据科学专家并没有上大学以获得数据科学学位(尽管现在许多大学都提供这些课程)。第一代专业数据科学家来自数学,统计学,计算机科学和物理学等学科。数据科学的“科学”部分是提出问题,生成假设,检查证据并制定解释证据的模型。这些是任何人都可以学习的技能,并且比以往任何时候都有更多的资源来学习。最好的资源之一是Kaggle 。他们的数据科学竞赛为所有人提供了一个挑战真实项目的平台。围绕这些挑战而形成的社区也是向他人学习的好地方。当我从物理学家原创 2020-12-24 11:00:01 · 1193 阅读 · 0 评论 -
3个独一无二的机器学习Python库
Python有大量广泛应用于数据科学的软件包,其中部分工具旨在实现机器学习算法。我将介绍一些新的软件包,您以前可能从未听说过这些工具,或者用得很少。这些库使机器学习算法的选择变得更快和更容易。如果您想了解更多重要的机器学习Python库,请继续阅读,它们并不是scikit-learn,TensorFlow。我们将讨论PyCaret,pickle和Imbalanced-learn。本文来自《数据黑客》,登录官网可阅读更多精彩资讯和文章。PyCaretPyCaret能够用更少的代码来实现机器学习算法,选择原创 2020-12-13 09:40:39 · 242 阅读 · 1 评论 -
不想花时间阅读长篇文章?用Python NLTK获取文章摘要
介绍今天的互联网上有数以百万计的网页和网站。遍历大量内容对于提取有关某个主题的信息变得非常困难。Google会过滤搜索结果并为您提供排名前十的搜索结果,但是通常无法找到所需的正确内容。文章中有大量冗余和重叠的数据,这导致大量时间的浪费。解决此问题的更好方法是汇总大量可用的文本数据,以较短的版本显示。本文来自《数据黑客》,登录官网可阅读更多精彩资讯和文章。文本摘要文本摘要是一种NLP(自然语言处理)技术,可从大量数据中提取文本,目标是创建长文本的精简版本。文本摘要的好处:减少阅读时间帮助更好的原创 2020-12-09 10:34:04 · 618 阅读 · 0 评论 -
机器学习入门之7种经典回归模型
介绍线性和逻辑回归通常是学习数据科学时接触的第一个算法,由于它们非常流行,许多分析师甚至认为它们是唯一的回归技术。事实上,存在多种不同形式的回归模型,每种形式都有自身的特点和特定的应用场景。在本文中,我将简要介绍数据科学中最常用的7种回归模型。通过本文,我希望人们对回归分析有更深入的理解,而不是仅仅停留在线性回归和逻辑回归的层面。本文来自《数据黑客》,登录官网可阅读更多精彩资讯和文章。目录什么是回归分析?为什么使用回归分析?有哪些常用的回归模型?线性回归逻辑回归多项式回归逐步回归原创 2020-12-09 10:29:22 · 6419 阅读 · 0 评论 -
R时间序列模型之贝叶斯预测
这篇文章是关于nnetsauce 中单变量/多变量时间序列的贝叶斯预测。对于采用的每个统计/机器学习(ML)模型, 都使用默认超参数。当然,进一步调整它们各自的超参数可能会获得更好的预测性能。本文来自《数据黑客》,登录官网可阅读更多精彩资讯和文章。1. 单变量时间序列Nile数据集用作单变量时间序列。它包含了对1871年至1970年阿斯旺(原名阿苏安)尼罗河年流量的测量,其变化幅度为10 ^ 8 m ^ 3,1898年附近有明显的结构性变异。library(datasets)plot(Nile)原创 2020-12-07 08:50:48 · 3780 阅读 · 2 评论 -
Julia机器学习入门指南
什么是Julia?Julia是一种相对较新的编程语言,在机器学习领域越来越受欢迎。这篇文章将解析为什么以及如何使用Julia进行机器学习。本文来自《数据黑客》,登录官网可阅读更多精彩资讯和文章。为什么选择Julia?1. 速度与编译与其他机器学习语言相比,Julia的主要优势是速度。Julia的速度优势来源于两点:第一,它是一种编译语言;第二,它是为并行而设计的。2. 脚本式语法尽管具有速度优势,但是Julia的语法并不是很复杂,它更像脚本语言,从Python或R切换到Julia相对容易。3原创 2020-12-05 10:40:09 · 1797 阅读 · 1 评论 -
数据科学家要掌握的高级SQL
本文介绍了一些技巧,这些技巧一旦掌握,就可以为用户提供处理各种数据类型的工具。本文不涉及及与数据库管理有关的任何内容,例如表创建或架构。如果您想继续,可以[在此处](https://adam-shafi.medium.com/easiest-local-sql-server-a8e9b067c01b)使用SQLite设置本地SQL Server。本文来自《数据黑客》,登录官网可阅读更多精彩资讯和文章。内容导航:探索示例数据JOIN充当过滤器Self JoinsCASE WHEN子查询公原创 2020-11-23 08:39:11 · 154 阅读 · 0 评论 -
Python机器学习实战:维数约简的6种常用方法
机器学习实战:这里没有艰深晦涩的数学理论,我们将用简单的案例和大量的示例代码,向大家介绍机器学习的核心概念。我们的目标是教会大家用Python构建机器学习模型,解决现实世界的难题。为什么要约简维数?当数据集包含大量特征,有的特征包含大量预测信息,有的仅包含少量信息或纯粹是噪音,很多特征之间也可能高度相关。维数约简的目的在于剔除噪音,只保留有意义的特征,这不仅使数据集更容易管理和理解,预测模型的准确性也会相应提高。常用方法有哪些?相关系数矩阵主成分分析随机PCA因子分析线性判别分析核P.原创 2020-09-28 17:37:35 · 1436 阅读 · 0 评论 -
Python机器学习实战:维数约简之主成分分析(PCA)详解
机器学习实战:这里没有艰深晦涩的数学理论,我们将用简单的案例和大量的示例代码,向大家介绍机器学习的核心概念。我们的目标是教会大家用Python构建机器学习模型,解决现实世界的难题。1. 降维和PCAPCA即主成分分析(Principal Component Analysis),要理解PCA,首先要理解一个更广义的概念:降维。降维即降低数据集的维度,这里的维度指的是输入变量或者特征的数量。机器学习算法要求输入是大小为(n_samples, n_features)的二维矩阵(类似excel表格),n_sa原创 2020-09-21 16:31:25 · 1717 阅读 · 0 评论 -
Python机器学习实战:掌握这四个特征选择方法,提升模型预测性能
机器学习实战:这里没有艰深晦涩的数学理论,我们将用简单的案例和大量的示例代码,向大家介绍机器学习的核心概念。我们的目标是教会大家用Python构建机器学习模型,解决现实世界的难题。当数据集包含很多特征,例如超过100个,该如何处理?有的特征可能是噪音,没有预测能力,部分特征之间可能高度相关,如果把所有数据喂到机器学习算法,会导致糟糕的结果:预测精度低,这点容易理解,即所谓垃圾进垃圾出(garbage in, garbage out)低泛化能力模型训练的时间更长为了解决这个问题,需要使用特征选原创 2020-09-18 17:22:28 · 3069 阅读 · 0 评论 -
Python机器学习实战:特征缩放的3个方法
机器学习实战:这里没有艰深晦涩的数学理论,我们将用简单的案例和大量的示例代码,向大家介绍机器学习的核心概念。我们的目标是教会大家用Python构建机器学习模型,解决现实世界的难题。什么是特征缩放?特征缩放(feature scaling): 改变特征的取值范围,缩放到统一的区间,例如[0,1][0, 1][0,1].为什么要进行特征缩放?数据集包含众多特征,每个特征的尺度(scale)不同,有的特征的单位是小时,有的特征的单位是公里,尺度不同也意味着变化的范围不同,有的特征的波动非常大,有的非常小。原创 2020-09-17 17:17:40 · 1642 阅读 · 0 评论 -
Python机器学习实战:如何处理非数值特征
机器学习实战:这里没有艰深晦涩的数学理论,我们将用简单的案例和大量的示例代码,向大家介绍机器学习的核心概念。我们的目标是教会大家用Python构建机器学习模型,解决现实世界的难题。机器学习模型要求输入为数值变量,特征必须是大小为(n_samples, n_features)的数值矩阵,目标是(n_samples, 1)的数值向量。但现实世界的数据集有可能包含非数值数据,例如分类变量,文本数据和图像。这时候需要进行数据预处理(data preprocessing),即采用一些技巧将非数值变量转换为数值变量原创 2020-09-14 17:22:22 · 4093 阅读 · 2 评论 -
Python机器学习实战:如何用Pandas处理缺失值
机器学习实战:这里没有艰深晦涩的数学理论,我们将用简单的案例和大量的示例代码,向大家介绍机器学习的核心概念。我们的目标是教会大家用Python构建机器学习模型,解决现实世界的难题。现实和教程最大的区别之一是,现实的数据集是混乱不堪的,数据科学家90%的时间都花在数据预处理上,其中就包括处理缺失值(missing values)。Python做数据科学项目时通常用Pandas存储数据,所以我们重点讨论如何用Pandas处理缺失值。1. 如何表示缺失值用python处理数据主要通过numpy和panda原创 2020-09-10 17:49:18 · 1157 阅读 · 0 评论 -
Python机器学习实战:划分训练集和检验集
机器学习实战:这里没有艰深晦涩的数学理论,我们将用简单的案例和大量的示例代码,向大家介绍机器学习的核心概念。我们的目标是教会大家用Python构建机器学习模型,解决现实世界的难题。1. 训练集和检验集在应用机器学习算法前,一般将数据集划分为训练集(training set)和检验集(test set),训练集用于拟合模型,检验集用于评估预测能力。机器学习模型往往包含很多参数,如果不使用检验集而是直接评估样本内的预测精度,会受到过度拟合的影响。所谓过度拟合,就是模型找到了本来不存在的规律,利用检验集来校原创 2020-09-08 18:57:10 · 1306 阅读 · 0 评论