机器学习
好人静
这个作者很懒,什么都没留下…
展开
-
机器学习入门研究(十八)—聚类的模型评估
目录轮廓系数sklearn中的API在机器学习入门研究(十七)— Instacart Market用户分类中我们通过sklearn中的KMeans来将用户分成了三类人,那么我们怎么评估这个模型的好与不好呢?轮廓系数从上图中,我们知道聚类最后将这些点分成了2类,聚类最后的结果就是:内部的距离最小化,外部的距离最大化。我们使用轮廓系数来描述,其中公式如下:其中里面的bi...原创 2020-02-24 15:47:41 · 327 阅读 · 0 评论 -
机器学习入门研究(十六)—K-means
无监督学习相对于前面学习的各种监督学习的算法,都是既有特征又有目标值的学习;而无监督学习就是没有目标值,只有特征值,要根据这些特征值自行训练,然后在进行分类预测。分类聚类:K-means(K均值)、均值漂移聚类、基于密度的聚类方法(DBSCAN)、用高斯混合模型(GMM)的最大期望(EM)聚类、凝聚层次聚类、图团体检测(Graph Community Detection)降维:PC...原创 2020-02-21 18:20:16 · 391 阅读 · 0 评论 -
机器学习入门研究(十七)— Instacart Market用户分类
Instacart Market Basket Analysis是一个经典的顾客行为预测案例。通过分析开源大约三百万的订单数据来预测用户的购买商品类别的行为。1.获取数据我们从官网中下载到对应的数据,放到本地目录之后,读取到数据如下:(1)order_products__prior.csv:订单与商品信息。对应的字段有:order_id,product_id, add_to_cart...原创 2020-02-21 18:17:28 · 1282 阅读 · 0 评论 -
机器学习入门研究(十五)-模型保存与加载
之前我们在使用模型进行预测的时候,都是需要重新训练,那经过一段时间模型训练的准确率已经可以达到一定的标准,那么我们可以通过保存模型和加载模型的方式来完成预测,不需要每次都去训练模型。1.模型的保存在sklearn中提供了API来实现该功能。...原创 2020-02-17 14:59:03 · 538 阅读 · 0 评论 -
机器学习入门研究(十四)-逻辑回归
目录概述Sigmoid函数损失函数优化损失对应的sklearn的API实例数据集特征总结概述分类模型,用于估计某种事物的可能性,常用于以下场景:广告点击率:是否被点击垃圾邮件:是否为垃圾邮件是否患病金融诈骗:是否是金融诈骗虚假账号:是否是虚假账号上述场景中的共同点:都是二分类问题,存在一个正例和一个反例。逻辑回归的原理就是将...原创 2020-01-21 17:15:06 · 509 阅读 · 0 评论 -
机器学习入门研究(十三)-岭回归
目录前言欠拟合和过拟合正则化L1正则化L2正则化岭回归前言前段时间在忙项目合同的事情,这个学习耽误了一段时间,趁着年前不忙的时候,抓紧时间学完。欠拟合和过拟合欠拟合定义:一个假设在训练集上不能得到更好的拟合,并且在测试集中也不能得到很好的拟合数据。原因:模型过于简单,学习数据的特征少解决办法:增加数据的特征数量过拟合定义:一个假设在训练...原创 2020-01-09 17:26:41 · 727 阅读 · 0 评论 -
机器学习入门研究(十二)-线性回归
目录回归线性回归定义广义的线性模型线性模型之线性关系线性模型之非线性关系线性回归模型的求解损失函数正规方程PS几个数学知识:求解过程梯度下降PS数学小知识求解过程区分两个概念梯度下降分类sklearn中对应的API线性回归实例1.正规方程回归性能评估sklearn中的API对应上述实例的计算总结回归...原创 2020-01-09 13:20:54 · 562 阅读 · 0 评论 -
机器学习入门研究(十一)-随机森林分析泰坦尼克生存的情况
目录随机森林集成学习方法随机森林原理sklearn的API实例分析总结在机器学习入门研究(九)-决策树知道决策树缺点在于容易出现多度拟合,在解决这个问题的时候有一种方案就是随机森林。随机森林是一个集成学习方法。集成学习方法集成学习方法就是建立几个模型组合来解决单一预测问题。工作原理:生成多个分类器/模型,各自独立的学习和作出预测。这些预测最后组...原创 2019-12-05 16:19:39 · 876 阅读 · 0 评论 -
机器学习入门研究(十)-决策树分析泰坦尼克生存的情况
目录需要分析的问题流程分析总结需要分析的问题有一些泰坦尼克的数据集,里面的数据的特征包括了姓名、票的类别、存活、乘坐班、年龄、登录、目的地、房间、票、船和性别。我们看下大体的数据集内容如下:pclass :社会阶层的代表:(1st,2 st,3 st)其中这些数据集中年龄数据存在缺失。我们在分析该问题的时候,首要的第一步就是要选好特征值和目标值,我们要挑选...原创 2019-12-04 13:18:23 · 674 阅读 · 0 评论 -
机器学习入门研究(九)-决策树
目录认识决策树信息熵1.信息2.信息熵ID3算法C4.5算法GARTsklearn的API鸢尾花实例决策树的可视化的API总结认识决策树其实就是程序的if-else结果。我们看一下这个例子,已知年龄、工作、房子、信贷情况来判断是否把贷款给个人。我们通过这些样本内容进行学习,来预测如果已知某个人的这些特征对应的特征值的时候,就可以判断是否...原创 2019-12-03 11:51:09 · 1254 阅读 · 0 评论 -
机器学习入门研究(八)-朴素贝叶斯算法
目录贝叶斯公式朴素贝叶斯算法1.定义2.应用场景3.实例分析实例多项式模型伯努利模型对比多项式模型和伯努利模型在Sklearn中的API多项式分布模型伯努利模型高斯模型实例总结贝叶斯公式如果交换条件概率中的条件与结果,即已知P(x|h)怎么去求解P(h|x)(1)P(h|x)在事件x发生之后,h事件发生的概率。称为后...原创 2019-11-27 16:47:13 · 644 阅读 · 0 评论 -
机器学习入门研究(七)-模型选择与调优
目录1.超参数搜索2.超参数调优过程3.网络搜索原理交叉验证对应的sklearn 的API实例4.随机搜索原理对应的sklearn的API实例5.贝叶斯优化算法主要思想PS先验分布、后验分布、似然估计两个过程与网格搜索、随机搜索区别可以做贝叶斯优化的API实例总结在上次KNN算法中,其中有个K值,只是随机取了一个数值来...原创 2019-11-21 14:22:28 · 1251 阅读 · 0 评论 -
机器学习入门研究目录
最近在看机器学习的一些内容,将自己看的内容总结一下,一方面加深自己的理解,另一方面享受这个学习的过程。会持续更新,如果有问题的地方,很希望大家一起讨论学习。机器学习之入门研究(一)机器学习入门研究(二)机器学习入门研究(三)-PyCharm创建第一个工程(Mac)机器学习入门研究(四)-评价指标-自我感觉总结的还不错的机器学习入门研究(四)-评价指标-回归和聚类机器学习入门...原创 2019-11-15 11:33:28 · 172 阅读 · 0 评论 -
机器学习入门研究(六)-KNN算法
目录转换器和预估器转换器预估器KNN算法定义算法伪代码描述k值的选择几个距离计算实例sklearn中的API实例优缺点转换器和预估器转换器主要用于特征工程。我们之前在特征工程中介绍了好几个转换器,像DictVectorizer、StandardScaler等。这些转换器类都是继承Transformer。在使用的过程中我们的一般步骤如下...原创 2019-11-15 11:29:56 · 1441 阅读 · 1 评论 -
机器学习入门研究(六)-特征工程之特征预处理
目录1.定义2.为什么要有特征的预处理归一化1.定义2.API标准化1.定义2.API总结上一篇文章机器学习入门研究(五)-特征工程之特征提取提到了特征工程的特征提取,本文将总结特征工程中的另外一个特征预处理。1.定义特征预处理就是通过一些转换函数将特征数据转换成适合算法模型的特征数据的处理过程。也就是将数据值数据进行无量纲化。2.为什么要有特征...原创 2019-11-12 12:05:48 · 448 阅读 · 1 评论 -
机器学习入门研究(五)-特征工程之特征提取
目录为什么要用特征工程特征提取(Feature Extraction)1.目的2.对应的工具3.三种方法4.对应的sklearn的API(1)字典特征提取(2)文本特征提取总结特征是从数据中抽取出来的对结果有预测有用的信息,可以是文本或者数据。Feature Engineer。特征工程就是把原始数据转换成特征的过程。特征工程对数据进行处理,使得特征在机器...原创 2019-11-09 13:29:31 · 8496 阅读 · 0 评论 -
机器学习入门研究(四)-评价指标-回归和聚类
目录一、回归1.均方误差MSE2.均方根误差(RMSE)3.平均绝对误差MAE4.确定性系数R2二、聚类1.ARI2.轮廓系数三、总结上一篇机器学习入门研究(三)-评价指标-自我感觉总结的还不错的介绍了关于分类模型中的评价指标,这篇主要介绍回归和聚类模型中的评价指标。一、回归1.均方误差MSEMean Squared Error,也称为L2损失,...原创 2019-10-30 10:34:01 · 373 阅读 · 0 评论 -
机器学习入门研究(四)-评价指标-自我感觉总结的还不错的
目录一、评价指标二、混淆矩阵(Confusion Matrix)1.简单介绍2.二分类混淆矩阵3.多类别混淆矩阵三、准确率(Accuracy)1.二分类的混淆矩阵2.多分类混淆矩阵四、精确率(Precision)1.二分类的混淆矩阵2.多分类混淆矩阵五、召回率 (Recall)1.二分类的混淆矩阵2.多分类混淆矩阵3.对比精确率和...原创 2019-10-29 13:42:36 · 717 阅读 · 0 评论 -
机器学习入门研究(三)-PyCharm创建第一个工程(Mac)
看了一段时间的机器学习,就想着跑一个实例来看看到底是怎么回事记录下从配置环境开始,到成功的运行第一个实例,这个过程有一些自己也不理解的东西,希望等着在深入学习之后,再回过来看下。1.安装PyCharm在pycharm官网上下载对应的dmg文件,进行安装2.安装python参考网站:https://blog.csdn.net/timtian008/article/details/...原创 2019-10-16 14:11:29 · 881 阅读 · 0 评论 -
机器学习之入门研究(一)
目录一、AI &机器学习 &深度学习二、机器学习的概述概念适合情况四种领域目前应用一些场景三、机器是如何学习四、机器学习发展的五大流派五大流派演化阶段五、机器学习的要素模型策略算法三者直接的联系六、总结一、AI &机器学习 &深度学习在刚开始接触机器学习这个概念的时候,自己对AI、机器学习和深度...原创 2019-10-11 10:28:28 · 294 阅读 · 1 评论 -
机器学习入门研究(二)
目录一、十大算法二、不同的分类标准三、如何选择算法四、关键术语一、十大算法下面的图列举了最常用的机器学习算法,大部分的问题都可以通过它们解决二、不同的分类标准机器学习的算法根据不同的分类标准,有不同的分类,下图简单的给出了几种分类标准三、如何选择算法四、关键术语主要通过思维导图的方式进行简单说明下面四个概念:标签、特征、模型和样本,等...原创 2019-10-11 10:50:49 · 186 阅读 · 0 评论