机器学习
科技老丁哥
这个作者很懒,什么都没留下…
展开
-
【火炉炼AI】机器学习044-创建隐马尔科夫模型
【火炉炼AI】机器学习044-创建隐马尔科夫模型(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )隐马尔科夫模型(Hidden Markov Model, HMM)是非常经典的机器学习模型,在语音识别,自然语言处理,模式识别等领域中有着非常广泛的应用。故而理解和熟练掌握HMM是机器学习领...原创 2018-10-19 14:31:03 · 293 阅读 · 0 评论 -
【火炉炼AI】机器学习037-NLP文本分块
【火炉炼AI】机器学习037-NLP文本分块(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2, NLTK 3.3)文本分块是将一大段文本分割成几段小文本,其目的是比如想获取一段文本中的一小部分,或分割得到固定单词数目的小部分等,经常用于非常大的文本。注意文本分块和分词不一样,分词的目的是把...原创 2018-10-10 09:50:53 · 1386 阅读 · 0 评论 -
【火炉炼AI】机器学习036-NLP词形还原
【火炉炼AI】机器学习036-NLP词形还原(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2, NLTK 3.3)词形还原也是将单词转换为原来的相貌,和上一篇文章中介绍的词干提取不一样,词形还原要难的多,它是一个更加结构化的方法,在上一篇中的词干提取例子中,可以看到将wolves提取为wo...原创 2018-10-09 18:12:03 · 253 阅读 · 0 评论 -
【火炉炼AI】机器学习035-NLP词干提取
【火炉炼AI】机器学习035-NLP词干提取(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2, NLTK 3.3)在英语中,经常会有很多单词的变形,记得以前英语老师讲课时,讲到动词的变形,有过去时,将来时,现在进行时等不同场合,动词需要变成相应的形态,而讲到名词时,又提到单数和复数的概念,...原创 2018-10-09 16:28:08 · 352 阅读 · 0 评论 -
【火炉炼AI】机器学习034-NLP对文本进行分词
【火炉炼AI】机器学习034-NLP对文本进行分词(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2, NLTK 3.3, jieba 0.39)分词过程可以认为是自然语言处理(NLP)的第一步,在我们获取了文本数据集后,首先要做的就是将文本句子分割成各种单词,下面介绍各种常用的分词工具。...原创 2018-10-09 15:47:48 · 575 阅读 · 0 评论 -
【火炉炼AI】机器学习033-构建电影推荐系统
【火炉炼AI】机器学习033-构建电影推荐系统(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )电影推荐系统内部最关键的部件是推荐引擎,和汽车的发动机一样,推荐引擎的作用是产生数据动力,提供数据计算方案。从本质上说,推荐引擎时一个能预测用户兴趣点的模型。对于不同的具体项目要求,推荐引擎也...原创 2018-10-09 11:18:39 · 667 阅读 · 0 评论 -
【火炉炼AI】机器学习043-pandas操作时间序列数据
【火炉炼AI】机器学习043-pandas操作时间序列数据(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )时间序列数据分析是机器学习领域中的一个重要领域,时间序列数据是随着时间变化而不断变化的数据,最典型的一个例子就是股价数据,随着日期的不同而不同,还有一年四季的温度变化,台风运行轨迹...原创 2018-10-18 16:55:09 · 220 阅读 · 0 评论 -
【火炉炼AI】机器学习032-用户之间相似度的计算
【火炉炼AI】机器学习032-用户之间相似度的计算(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )在构建推荐引擎时,一般需要计算两个用户之间的相似度,以便找到与数据库中特定用户相似的用户。计算相似度的方法有很多种,其中比较常见的两种是计算欧几里得距离和皮尔逊相关系数,本文分别讲述使用这...原创 2018-10-08 18:06:33 · 4323 阅读 · 0 评论 -
【火炉炼AI】机器学习042-NLP文本的主题建模
【火炉炼AI】机器学习042-NLP文本的主题建模(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2, NLTK 3.3)文本的主题建模时用NLP来识别文本文档中隐藏的某种模式的过程,可以发现该文档的隐藏主题,以便对文档进行分析。主题建模的实现过程是,识别出某文本文档中最有意义,最能表征主题...原创 2018-10-18 14:00:58 · 173 阅读 · 0 评论 -
【火炉炼AI】机器学习031-KNN回归器模型的构建
【火炉炼AI】机器学习031-KNN回归器模型的构建(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )在上一篇文章中我们学习了构建KNN分类器模型,但是KNN不仅可以用于分类问题,还可以用于回归问题,本章我们来学习KNN回归模型的构建和训练。1. 准备数据集此处我们使用随机函数构建...原创 2018-10-08 16:32:22 · 439 阅读 · 1 评论 -
【火炉炼AI】机器学习030-KNN分类器模型的构建
【火炉炼AI】机器学习030-KNN分类器模型的构建(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )KNN(K-nearest neighbors)是用K个最近邻的训练数据集来寻找未知对象分类的一种算法。其基本的核心思想在我的上一篇文章中介绍过了。1. 准备数据集此处我的数据集准...原创 2018-10-08 15:03:50 · 566 阅读 · 0 评论 -
【火炉炼AI】机器学习029-找到离你最近的邻居
【火炉炼AI】机器学习029-找到离你最近的邻居(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )最近邻算法的核心思想是:想要判断你属于哪一个类别,先找离你最近的K个邻居,看看这些邻居的大部分属于哪个类别,那么就可以认为你也属于这个类别。所以,根据这种核心思想,有三个重要的因素:距离度...原创 2018-10-08 13:44:18 · 213 阅读 · 2 评论 -
【火炉炼AI】机器学习038-NLP创建词袋模型
【火炉炼AI】机器学习038-NLP创建词袋模型(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2, NLTK 3.3)词袋模型(Bag Of Words, BOW)和词向量(Word Embedding, 也叫词嵌套等)是自然语言处理和文本分析的两个最常用的模型。词袋模型将一段文本看成一...原创 2018-10-10 15:59:04 · 280 阅读 · 0 评论 -
【火炉炼AI】机器学习045-对股票数据进行隐马尔科夫建模
【火炉炼AI】机器学习045-对股票数据进行隐马尔科夫建模(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )股票数据是非常非常典型的时序数据,数据都是按照日期排列好,而且股价就是我们所能观察到的观测序列,而股价背后隐藏的变动机理就是我们难以看到的隐藏状态和状态转移概率,所以完全可以用隐马...原创 2018-10-19 20:18:26 · 485 阅读 · 0 评论 -
【火炉炼AI】机器学习055-使用LBP直方图建立人脸识别器
【火炉炼AI】机器学习055-使用LBP直方图建立人脸识别器(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )在我前面的博文【火炉炼AI】机器学习052-OpenCV构建人脸鼻子眼睛检测器中,讲到了人脸检测的方法和代码实现,但在很多实际场合,我们需要做的是人脸识别,即判断图片中的那张脸是...原创 2018-11-01 10:42:33 · 637 阅读 · 0 评论 -
【火炉炼AI】机器学习054-用ICA做盲源分离
【火炉炼AI】机器学习054-用ICA做盲源分离(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )盲源分离是指在信号的理论模型和源信号无法精确获知的情况下,如何从混叠信号中分离出各源信号的过程。盲源分离的目的是求得源信号的最佳估计。说的通俗一点,就相当于,假如有十个人同时说话,我用录音机...原创 2018-10-31 15:08:06 · 3221 阅读 · 1 评论 -
【火炉炼AI】机器学习052-OpenCV构建人脸鼻子眼睛检测器
【火炉炼AI】机器学习052-OpenCV构建人脸鼻子眼睛检测器(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2,opencv-python 3.4.2)有两个重要的概念需要澄清一下:人脸检测:是指检测图像或视频中是否存在人脸,以及定位人脸的具体位置,人脸识别:确定图像或视频中的人脸是张三...原创 2018-10-24 14:38:47 · 486 阅读 · 0 评论 -
【火炉炼AI】机器学习053-数据降维绝招-PCA和核PCA
【火炉炼AI】机器学习053-数据降维绝招-PCA和核PCA(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )主成分分析(Principal Component Analysis, PCA)可以说是数据降维的绝招,不仅在人口统计学,数量地理学,分子动力学模拟,数学建模等领域有着重要的应用...原创 2018-10-31 11:19:14 · 581 阅读 · 0 评论 -
【火炉炼AI】机器学习051-视觉词袋模型+极端随机森林建立图像分类器
【火炉炼AI】机器学习051-视觉词袋模型+极端随机森林建立图像分类器(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )视觉词袋模型(Bag Of Visual Words,BOVW)来源于自然语言处理中的词袋模型(Bag Of Words, BOW),关于词袋模型,可以参考我的博文【火...原创 2018-10-23 21:26:47 · 603 阅读 · 0 评论 -
【火炉炼AI】机器学习050-提取图像的Star特征
【火炉炼AI】机器学习050-提取图像的Star特征(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )对于图像的特征点,前面我们讨论过边缘检测方法,Harris角点检测算法等,这些检测算法检测的都是图像的轮廓边缘,而不是内部细节,如果要进一步提取图像内部细节方面的特征,需要用到SIFT特...原创 2018-10-22 17:50:08 · 944 阅读 · 1 评论 -
【火炉炼AI】机器学习049-提取图像的SIFT特征点
【火炉炼AI】机器学习049-提取图像的SIFT特征点(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )图像中的特征点,就是某一幅图像区别于其他图像的关键点位,在进行这些关键点位的检测时,我们要考虑几个问题,即1,不管怎么旋转目标,要保持目标的特征点不变(即旋转不变性),2,不管这个目标...原创 2018-10-22 17:03:10 · 381 阅读 · 0 评论 -
【火炉炼AI】机器学习048-Harris检测图像角点
【火炉炼AI】机器学习048-Harris检测图像角点(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )角点检测算法大致有三类:基于灰度图像的角点检测,基于二值图像的角点检测,基于轮廓曲线的角点检测。基于灰度图像的角点检测又可分为基于梯度、基于模板和基于模板梯度组合3类方法,其中基于模板...原创 2018-10-22 15:48:51 · 195 阅读 · 0 评论 -
【火炉炼AI】机器学习047-图像的直方图均衡化操作
【火炉炼AI】机器学习047-图像的直方图均衡化操作(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )图像的直方图是指图像中每一像素范围内像素频率的统计关系图,直方图能够给出图像灰度范围,每个灰度的频度和灰度的分布,整幅图的平均明暗,对比度等概貌性描述。灰度直方图是灰度级的函数,反映的是...原创 2018-10-22 14:53:20 · 281 阅读 · 0 评论 -
【火炉炼AI】机器学习040-NLP性别判断分类器
【火炉炼AI】机器学习040-NLP性别判断分类器(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2, NLTK 3.3)本文的目标是构建一个分类器,从名字就判断这个人是男性还是女性。能够建立这种分类器的基本假设是英文名字后面的几个字母带有很明显的性别倾向,比如’la’结尾的一般是女性,以’...原创 2018-10-17 17:37:37 · 813 阅读 · 0 评论 -
【火炉炼AI】机器学习039-NLP文本分类器
【火炉炼AI】机器学习039-NLP文本分类器(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2, NLTK 3.3)前面我们学习了很多用NLP进行文本的分词,文本分块,创建词袋模型等,这些步骤可以认为是NLP文本处理的基础,此处我们来看NLP的一个非常重要的应用,对文本使用监督学习进行自动...原创 2018-10-17 15:45:31 · 994 阅读 · 0 评论 -
【火炉炼AI】机器学习046-图像边缘的检测方法
【火炉炼AI】机器学习046-图像边缘的检测方法(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )图像中各种形状的检测时计算机视觉领域中非常常见的技术之一,特别是图像中直线的检测,圆的检测,图像边缘的检测等,下面我们来研究一下如何快速检测图像边缘。边缘是不同区域的分界线,是周围(局部)...原创 2018-10-22 11:14:12 · 544 阅读 · 0 评论 -
【火炉炼AI】机器学习041-NLP句子情感分析
【火炉炼AI】机器学习041-NLP句子情感分析(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )在NLP中有一个非常实用的应用领域–情感分析,情感分析是用NLP技术分析一段给定文本的情感类型,是积极的还是消极的,是乐观的还是悲观的等。比如在股市中,我们知道,往往大众最悲观的时候往往是股...原创 2018-10-18 10:02:28 · 633 阅读 · 0 评论 -
【火炉炼AI】机器学习027-项目案例:用聚类算法建立客户细分模型
【火炉炼AI】机器学习027-项目案例:用聚类算法建立客户细分模型(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )客户细分是市场营销成功的前提,我们从市场中获取的数据一般都没有标记,要想对这些市场数据进行客户细分,将客户划分簇群,这也是一种典型的无监督学习问题。本项目拟用各种不...原创 2018-09-07 13:02:59 · 1574 阅读 · 0 评论 -
【火炉炼AI】机器学习028-五分钟教你打造机器学习流水线
【火炉炼AI】机器学习028-五分钟教你打造机器学习流水线(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )现在的社会工业化大生产离不开流水线作业,有了流水线,我们可以轻松的制造出成千上万相同的产品,而且所需要的价格成本极大地下降,所以说,流水线操作,使得工业化生产水平极大的提高。...原创 2018-09-10 10:54:03 · 450 阅读 · 0 评论 -
【火炉炼AI】机器学习013-用朴素贝叶斯分类器估算个人收入阶层
【火炉炼AI】机器学习013-用朴素贝叶斯分类器估算个人收入阶层(本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )每个人都有权利追求幸福的生活,我等屌丝也不例外,但是,怎么样才能知道自己到底是屌丝阶层还是富帅阶层了?此处,炼丹老顽童将介绍如何利用朴素贝叶斯分类器估算个人的收入阶层...原创 2018-08-07 12:48:01 · 4696 阅读 · 4 评论 -
【火炉炼AI】机器学习011-分类模型的评估:准确率,精确率,召回率,F1值
【火炉炼AI】机器学习011-分类模型的评估:准确率,精确率,召回率,F1值【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 在前面的(【火炉炼AI】机器学习004-岭回归器的构建和模型评估)中,讲解了回归模型的评估方法,主要有均方误差MSE, 解释方差分,R方得分等指标。同...原创 2018-08-01 21:29:17 · 6098 阅读 · 0 评论 -
【火炉炼AI】机器学习007-用随机森林构建共享单车需求预测模型
【火炉炼AI】机器学习007-用随机森林构建共享单车需求预测模型【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 共享单车是最近几年才发展起来的一种便民交通工具,基本上是我等屌丝上班,下班,相亲,泡妞必备神器。本项目拟使用随机森林回归器构建共享单车需求预测模型,从而查看各种不同的...原创 2018-07-27 20:14:27 · 3700 阅读 · 0 评论 -
【火炉炼AI】机器学习010-用朴素贝叶斯分类器解决多分类问题
【火炉炼AI】机器学习010-用朴素贝叶斯分类器解决多分类问题【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 前面讲到了使用逻辑回归分类器解决多分类问题(【火炉炼AI】机器学习009-用逻辑回归分类器解决多分类问题 ),但是解决多分类问题并不是只有逻辑回归一种方法,此处我们讲解...原创 2018-07-31 20:27:51 · 11850 阅读 · 3 评论 -
【火炉炼AI】机器学习009-用逻辑回归分类器解决多分类问题
【火炉炼AI】机器学习009-用逻辑回归分类器解决多分类问题【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 前面的【火炉炼AI】机器学习008已经讲解了用简单线性分类器解决二分类问题,但是对于多分类问题,我们该怎么办了?此处介绍一种用于解决多分类问题的分类器:逻辑回归。虽然...原创 2018-07-31 15:43:33 · 2492 阅读 · 0 评论 -
【火炉炼AI】机器学习008-用简单线性分类器解决二分类问题
【火炉炼AI】机器学习008-用简单线性分类器解决二分类问题【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 分类问题,就是将数据点按照不同的类别区分开来,所谓人以类聚,物以群分,就是这个道理。以前的【机器学习001-007】都是讲解的回归问题,两者的不同之处在于:回归输出的结果...原创 2018-07-31 13:54:43 · 1499 阅读 · 0 评论 -
【火炉炼AI】机器学习006-用决策树回归器构建房价评估模型
【火炉炼AI】机器学习006-用决策树回归器构建房价评估模型【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 最近几十年,房价一直是中国老百姓心中永远的痛,有人说,中国房价就像女人的无肩带文胸,一半人在疑惑:是什么支撑了它?另一半人在等待:什么时候掉下去? 而女人,永不可能让它掉...原创 2018-07-27 11:44:01 · 651 阅读 · 0 评论 -
【火炉炼AI】机器学习005-多项式回归器的创建和测试
【火炉炼AI】机器学习005-多项式回归器的创建和测试【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19 前面讲到了简单线性回归器和岭回归器,这两类回归器都是将数据集拟合成直线,但现实生活中,有很多情况,数据集的分布并不是简单的线性关系,还有可能是曲线关系,聚类关系,随机分布关系等,对于这些不同的数据集分布关系,...原创 2018-07-26 16:51:34 · 503 阅读 · 0 评论 -
【火炉炼AI】机器学习004-岭回归器的构建和模型评估
【火炉炼AI】机器学习004-岭回归器的构建和模型评估【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19 在我的上一篇文章(【火炉炼AI】机器学习003-简单线性回归器的创建,测试,模型保存和加载)中,已经详细的讲解了简单线性回归器的构建和测试,简单线性回归器的优势在“简单”,运行速度快,但缺点也在于“简单”,过...原创 2018-07-25 18:01:23 · 1574 阅读 · 0 评论 -
【火炉炼AI】机器学习003-简单线性回归器的创建,测试,模型保存和加载
【火炉炼AI】机器学习003-简单线性回归器的创建,测试,模型保存和加载【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19 回归分析是一种基于现有数据集,从现有数据集中寻找数据规律的一种建模技术,主要研究的是因变量(输出y,或标记,或目标,它的别名比较多)和自变量(输入x,或特征,或预测器)之间的关系。通常用于预...原创 2018-07-24 17:47:26 · 515 阅读 · 0 评论 -
【火炉炼AI】机器学习002-标记编码方法
【火炉炼AI】机器学习002-标记编码方法【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19 监督学习中的标记的形式有各种各样,比如对于人脸识别的标记,可能是[“小红”,“小花”,“翠花”。。。],这些标记对于机器学习来说,如同天书一般,故而为了让机器学习“看懂”这些标记,需要将这些文本类的标记进行一定的编码,形...原创 2018-07-24 17:38:54 · 720 阅读 · 0 评论