机器学习
to be a good girl
数据分析,SQL,机器学习
升级打怪
展开
-
主成分分析理论知识
主成分分析理论知识1、主成分分析是将多指标化为少数几个综合指标的一种统计分析方法。在实际问题中, 研究多指标的问题是经常遇到的问题,由于变量个数太多,彼此之间存在着一定的关联性,因而使得所观测到是数据在一定程度上所反映的信息会有所重叠。主成分分析是一种降维的思想,利用较少的变量尽可能多地反映原来变量的信息,而且彼此之间互不相关。2、主成分分析的应用:指标分类(变量分类)、样品分类、样...原创 2019-06-09 21:20:06 · 2734 阅读 · 0 评论 -
决策树(上)理论知识
决策树理论知识一、学习目的决策树学习的目的是为了找到产生一颗泛化能力强,即处理未见示例能力强的决策树,遵循“分而治之”的策略。二、信息熵、信息增益、基尼系数1、 信息熵: 熵是表示随机变量不确定性的度量。(简单点理解就是:如果你去苹果专卖店买手机,那么苹果手机在苹果专卖店中存在的概率就很大,相对的,信息熵就很小。而你去杂货店买本子,因为杂货店的货物比较混乱 ,那本子在杂货店中存在的概率...原创 2019-07-15 21:15:53 · 370 阅读 · 0 评论 -
决策树(下)代码实现
决策树python代码实现目的:使用决策树预测糖尿病数据源: https://www.kaggle.com/uciml/pima-indians-diabetes-database#diabetes.csv# 导入数据包import pandas as pdfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.model...原创 2019-07-15 23:46:42 · 369 阅读 · 0 评论 -
sklearn训练模型的保存与加载
使用joblib模块保存于加载模型在机器学习的过程中,我们会进行模型的训练,最常用的就是sklearn中的库,而对于训练好的模型,我们当然是要进行保存的,不然下次需要进行预测的时候就需要重新再进行训练。如果数据量小的话,那再重新进行训练是没有问题的,但是如果数据量大的话,再重新进行训练可能会花费很多开销,这个时候,保存好已经训练的模型就显得特别重要了。我们可以使用sklearn中的joblib模...原创 2019-07-20 23:49:01 · 6776 阅读 · 2 评论 -
逻辑回归(上)理论知识
逻辑回归理论知识一、什么是逻辑回归逻辑回归是一种二分类算法,一般只用来解决二分类问题,但是它也可以用来解决多分类问题,当使用它来解决多分类问题的时候,由于逻辑回归的特点,我们一般将多分类问题转化为二分类问题,这里多分类问题的转化有三种拆分策略,分别是一对一、一对其余和多对多,通过多分类拆分策略,我们可以使用逻辑回归来进行多分类问题的预测,但是这种方法我们一般不用,因为多分类问题我们可以使用随机...原创 2019-07-21 17:05:59 · 302 阅读 · 0 评论 -
python简单实现支持向量机
支持向量机(SVM)代码实现支持向量机是一个重要的分类算法,在上一篇文章中简单地介绍了它的一些理论知识,这篇文章是简单讲一下如何用python训练一个svm模型导入所需的数据库import numpy as npfrom sklearn import datasetsfrom sklearn.pipeline import Pipelinefrom sklearn.preproce...原创 2019-08-08 22:14:35 · 759 阅读 · 0 评论