【火炉炼AI】之机器学习
本专栏详细讲解各种机器学习技术和算法,以及使用这些算法如何解决项目中遇到的具体问题。
我们不仅提供算法,还提供代码。
我们不仅提供思路,还提供方案。
我们的核心思想是:好的AI模型都需要在火炉中经过千锤百炼才能打磨出来。
科技老丁哥
这个作者很懒,什么都没留下…
展开
-
【火炉炼AI】机器学习029-找到离你最近的邻居
【火炉炼AI】机器学习029-找到离你最近的邻居(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )最近邻算法的核心思想是:想要判断你属于哪一个类别,先找离你最近的K个邻居,看看这些邻居的大部分属于哪个类别,那么就可以认为你也属于这个类别。所以,根据这种核心思想,有三个重要的因素:距离度...原创 2018-10-08 13:44:18 · 222 阅读 · 2 评论 -
【火炉炼AI】机器学习030-KNN分类器模型的构建
【火炉炼AI】机器学习030-KNN分类器模型的构建(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )KNN(K-nearest neighbors)是用K个最近邻的训练数据集来寻找未知对象分类的一种算法。其基本的核心思想在我的上一篇文章中介绍过了。1. 准备数据集此处我的数据集准...原创 2018-10-08 15:03:50 · 577 阅读 · 0 评论 -
【火炉炼AI】机器学习031-KNN回归器模型的构建
【火炉炼AI】机器学习031-KNN回归器模型的构建(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )在上一篇文章中我们学习了构建KNN分类器模型,但是KNN不仅可以用于分类问题,还可以用于回归问题,本章我们来学习KNN回归模型的构建和训练。1. 准备数据集此处我们使用随机函数构建...原创 2018-10-08 16:32:22 · 450 阅读 · 1 评论 -
【火炉炼AI】机器学习032-用户之间相似度的计算
【火炉炼AI】机器学习032-用户之间相似度的计算(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )在构建推荐引擎时,一般需要计算两个用户之间的相似度,以便找到与数据库中特定用户相似的用户。计算相似度的方法有很多种,其中比较常见的两种是计算欧几里得距离和皮尔逊相关系数,本文分别讲述使用这...原创 2018-10-08 18:06:33 · 4360 阅读 · 0 评论 -
【火炉炼AI】机器学习001-数据预处理技术(均值移除,范围缩放,归一化,二值化,独热编码)
【火炉炼AI】机器学习001-数据预处理技术(均值移除,范围缩放,归一化,二值化,独热编码)【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19 数据预处理的必要性:在真实世界中,经常需要处理大量的原始数据,这些原始数据是机器学习算法无法理解的,所以为了让机器学习算法理解原始数据,需要对数据进行预处理。最常用的...原创 2018-07-23 21:40:28 · 832 阅读 · 0 评论 -
【火炉炼AI】机器学习002-标记编码方法
【火炉炼AI】机器学习002-标记编码方法【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19 监督学习中的标记的形式有各种各样,比如对于人脸识别的标记,可能是[“小红”,“小花”,“翠花”。。。],这些标记对于机器学习来说,如同天书一般,故而为了让机器学习“看懂”这些标记,需要将这些文本类的标记进行一定的编码,形...原创 2018-07-24 17:38:54 · 733 阅读 · 0 评论 -
【火炉炼AI】机器学习003-简单线性回归器的创建,测试,模型保存和加载
【火炉炼AI】机器学习003-简单线性回归器的创建,测试,模型保存和加载【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19 回归分析是一种基于现有数据集,从现有数据集中寻找数据规律的一种建模技术,主要研究的是因变量(输出y,或标记,或目标,它的别名比较多)和自变量(输入x,或特征,或预测器)之间的关系。通常用于预...原创 2018-07-24 17:47:26 · 527 阅读 · 0 评论 -
【火炉炼AI】机器学习004-岭回归器的构建和模型评估
【火炉炼AI】机器学习004-岭回归器的构建和模型评估【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19 在我的上一篇文章(【火炉炼AI】机器学习003-简单线性回归器的创建,测试,模型保存和加载)中,已经详细的讲解了简单线性回归器的构建和测试,简单线性回归器的优势在“简单”,运行速度快,但缺点也在于“简单”,过...原创 2018-07-25 18:01:23 · 1610 阅读 · 0 评论 -
【火炉炼AI】机器学习005-多项式回归器的创建和测试
【火炉炼AI】机器学习005-多项式回归器的创建和测试【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19 前面讲到了简单线性回归器和岭回归器,这两类回归器都是将数据集拟合成直线,但现实生活中,有很多情况,数据集的分布并不是简单的线性关系,还有可能是曲线关系,聚类关系,随机分布关系等,对于这些不同的数据集分布关系,...原创 2018-07-26 16:51:34 · 526 阅读 · 0 评论 -
【火炉炼AI】机器学习006-用决策树回归器构建房价评估模型
【火炉炼AI】机器学习006-用决策树回归器构建房价评估模型【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 最近几十年,房价一直是中国老百姓心中永远的痛,有人说,中国房价就像女人的无肩带文胸,一半人在疑惑:是什么支撑了它?另一半人在等待:什么时候掉下去? 而女人,永不可能让它掉...原创 2018-07-27 11:44:01 · 711 阅读 · 0 评论 -
【火炉炼AI】机器学习007-用随机森林构建共享单车需求预测模型
【火炉炼AI】机器学习007-用随机森林构建共享单车需求预测模型【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 共享单车是最近几年才发展起来的一种便民交通工具,基本上是我等屌丝上班,下班,相亲,泡妞必备神器。本项目拟使用随机森林回归器构建共享单车需求预测模型,从而查看各种不同的...原创 2018-07-27 20:14:27 · 3731 阅读 · 0 评论 -
【火炉炼AI】机器学习008-用简单线性分类器解决二分类问题
【火炉炼AI】机器学习008-用简单线性分类器解决二分类问题【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 分类问题,就是将数据点按照不同的类别区分开来,所谓人以类聚,物以群分,就是这个道理。以前的【机器学习001-007】都是讲解的回归问题,两者的不同之处在于:回归输出的结果...原创 2018-07-31 13:54:43 · 1517 阅读 · 0 评论 -
【火炉炼AI】机器学习009-用逻辑回归分类器解决多分类问题
【火炉炼AI】机器学习009-用逻辑回归分类器解决多分类问题【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 前面的【火炉炼AI】机器学习008已经讲解了用简单线性分类器解决二分类问题,但是对于多分类问题,我们该怎么办了?此处介绍一种用于解决多分类问题的分类器:逻辑回归。虽然...原创 2018-07-31 15:43:33 · 2505 阅读 · 0 评论 -
【火炉炼AI】机器学习010-用朴素贝叶斯分类器解决多分类问题
【火炉炼AI】机器学习010-用朴素贝叶斯分类器解决多分类问题【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 前面讲到了使用逻辑回归分类器解决多分类问题(【火炉炼AI】机器学习009-用逻辑回归分类器解决多分类问题 ),但是解决多分类问题并不是只有逻辑回归一种方法,此处我们讲解...原创 2018-07-31 20:27:51 · 11924 阅读 · 3 评论 -
【火炉炼AI】机器学习011-分类模型的评估:准确率,精确率,召回率,F1值
【火炉炼AI】机器学习011-分类模型的评估:准确率,精确率,召回率,F1值【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 在前面的(【火炉炼AI】机器学习004-岭回归器的构建和模型评估)中,讲解了回归模型的评估方法,主要有均方误差MSE, 解释方差分,R方得分等指标。同...原创 2018-08-01 21:29:17 · 6143 阅读 · 0 评论 -
【火炉炼AI】机器学习012-用随机森林构建汽车评估模型及模型的优化提升方法
【火炉炼AI】机器学习012-用随机森林构建汽车评估模型及模型的优化提升方法【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 在前面的文章中(【火炉炼AI】机器学习007-用随机森林构建共享单车需求预测模型 )已经介绍了用随机森林方法构建共享单车需求预测模型,在代码实现层面上来讲...原创 2018-08-02 20:02:09 · 3452 阅读 · 0 评论 -
【火炉炼AI】机器学习013-用朴素贝叶斯分类器估算个人收入阶层
【火炉炼AI】机器学习013-用朴素贝叶斯分类器估算个人收入阶层(本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )每个人都有权利追求幸福的生活,我等屌丝也不例外,但是,怎么样才能知道自己到底是屌丝阶层还是富帅阶层了?此处,炼丹老顽童将介绍如何利用朴素贝叶斯分类器估算个人的收入阶层...原创 2018-08-07 12:48:01 · 4732 阅读 · 4 评论 -
【火炉炼AI】机器学习014-用SVM构建非线性分类模型
【火炉炼AI】机器学习014-用SVM构建非线性分类模型(本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )支持向量机(Support Vector Machine,SVM)是一种常见的判别方法,其基本模型是在特征空间上找到最佳的分离超平面,使得数据集上的正负样本间隔最大。SVM用来解...原创 2018-08-07 22:41:22 · 954 阅读 · 0 评论 -
【火炉炼AI】机器学习015-如何处理样本数偏差较大的数据集
【火炉炼AI】机器学习015-如何处理样本数偏差较大的数据集(本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )我们得到的数据集在绝大多数情况下,都不是理想的数据集,都需要经过各种各样的处理,其中的一个处理方式就是,如何处理样本数偏差较大的数据集。比如对于某种疾病的发生概率是1%,即获...原创 2018-08-21 15:01:49 · 2517 阅读 · 0 评论 -
【火炉炼AI】机器学习016-如何知道SVM模型输出类别的置信度
【火炉炼AI】机器学习016-如何知道SVM模型输出类别的置信度(本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )一般的,对于未知样本,我们通过模型预测出来属于某种类别,往往会给出是这种类别的概率。比如通过AI模型识别某一种图片是“狗”的概率是95.8%,是”猫“的概率是4.2%...原创 2018-08-21 15:03:21 · 3395 阅读 · 2 评论 -
【火炉炼AI】机器学习017-使用GridSearch搜索最佳参数组合
【火炉炼AI】机器学习017-使用GridSearch搜索最佳参数组合(本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )在前面的文章(【火炉炼AI】机器学习012-用随机森林构建汽车评估模型及模型的优化提升方法),我们使用了验证曲线来优化模型的超参数,但是使用验证曲线难以同时优化多个...原创 2018-08-21 15:05:26 · 566 阅读 · 0 评论 -
【火炉炼AI】机器学习018-项目案例:根据大楼进出人数预测是否举办活动
【火炉炼AI】机器学习018-项目案例:根据大楼进出人数预测是否举办活动(本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )我们经常看到办公大楼中人来人往,进进出出,在平时没有什么活动的时候,进出大楼的人数会非常少,而一旦举办有大型商业活动,则人山人海,熙熙攘攘,所以很明显,大楼进出的...原创 2018-08-22 14:37:30 · 396 阅读 · 0 评论 -
【火炉炼AI】机器学习019-项目案例:使用SVM回归器估算交通流量
【火炉炼AI】机器学习019-项目案例:使用SVM回归器估算交通流量(本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )我们都知道,SVM是一个很好地分类器,不仅适用于线性分类模型,而且还适用于非线性模型,但是,在另一方面,SVM不仅可以用于解决分类问题,还可以用于解决回归问题。本...原创 2018-08-22 17:42:05 · 699 阅读 · 0 评论 -
【火炉炼AI】机器学习020-使用K-means算法对数据进行聚类分析
【火炉炼AI】机器学习020-使用K-means算法对数据进行聚类分析(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )前面的机器学习类文章(编号从010-019)都是关于监督学习,但是从本篇文章开始,炼丹老顽童要开始讲解无监督学习方面,无监督学习是指处理的数据没有任何形式的标记,我...原创 2018-09-03 11:25:19 · 1399 阅读 · 1 评论 -
【火炉炼AI】机器学习021-使用K-means进行图片的矢量量化操作
【火炉炼AI】机器学习021-使用K-means进行图片的矢量量化操作(本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )前一篇文章我们讲解了K-means算法的定义方法,并用K-means对数据集进行了简单的聚类分析。此处我们讲解使用k-means对图片进行矢量量化操作。...原创 2018-09-03 15:03:39 · 1146 阅读 · 0 评论 -
【火炉炼AI】机器学习022-使用均值漂移聚类算法构建模型
【火炉炼AI】机器学习022-使用均值漂移聚类算法构建模型(本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )无监督学习算法有很多种,前面已经讲解过了K-means聚类算法,并用该算法对图片进行矢量量化压缩。下面我们来学习第二种无监督学习算法—-均值漂移算法。1. 均值漂移...原创 2018-09-04 15:01:37 · 629 阅读 · 0 评论 -
【火炉炼AI】机器学习023-使用层次聚类算法构建模型
【火炉炼AI】机器学习023-使用层次聚类算法构建模型(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )聚类的算法有很多种,前面我们讲解了k-means算法和均值漂移算法,此处我们继续讲解层次聚类算法。k-means是一种分散性聚类算法,以空间中K个点为中心进行聚类,将最靠近他们...原创 2018-09-04 18:49:28 · 355 阅读 · 0 评论 -
【火炉炼AI】机器学习024-无监督学习模型的性能评估--轮廓系数
【火炉炼AI】机器学习024-无监督学习模型的性能评估–轮廓系数(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )前面我们学习过监督学习模型的性能评估,由于数据集有标记,所以我们可以将模型预测值和真实的标记做比较,计算两者之间的差异,从而来评估监督学习模型的好坏。但是,对于无监督...原创 2018-09-05 10:27:23 · 1281 阅读 · 0 评论 -
【火炉炼AI】机器学习025-自动估算集群数量-DBSCAN算法
【火炉炼AI】机器学习025-自动估算集群数量-DBSCAN算法(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )在前面的文章【火炉炼AI】机器学习024-无监督学习模型的性能评估–轮廓系数中,我们自己定义了一个通用型函数,用于为 K-means算法寻找最佳的K值,这个函数虽然有效,...原创 2018-09-05 15:08:33 · 474 阅读 · 0 评论 -
【火炉炼AI】机器学习026-股票数据聚类分析-近邻传播算法
【火炉炼AI】机器学习026-股票数据聚类分析-近邻传播算法(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2, tushare 1.2)有一位朋友很擅长炒股,听说其资产已经达到了两百多万,我听后对其敬佩得五体投地,遂虚心向其请教炒股之秘诀,他听后,点了一根烟,深深地吸了一口,然后慢悠悠...原创 2018-09-06 18:26:51 · 5617 阅读 · 3 评论 -
【火炉炼AI】机器学习027-项目案例:用聚类算法建立客户细分模型
【火炉炼AI】机器学习027-项目案例:用聚类算法建立客户细分模型(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )客户细分是市场营销成功的前提,我们从市场中获取的数据一般都没有标记,要想对这些市场数据进行客户细分,将客户划分簇群,这也是一种典型的无监督学习问题。本项目拟用各种不...原创 2018-09-07 13:02:59 · 1625 阅读 · 0 评论 -
【火炉炼AI】机器学习028-五分钟教你打造机器学习流水线
【火炉炼AI】机器学习028-五分钟教你打造机器学习流水线(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )现在的社会工业化大生产离不开流水线作业,有了流水线,我们可以轻松的制造出成千上万相同的产品,而且所需要的价格成本极大地下降,所以说,流水线操作,使得工业化生产水平极大的提高。...原创 2018-09-10 10:54:03 · 460 阅读 · 0 评论