机器学习
yundanyi291
这个作者很懒,什么都没留下…
展开
-
机器学习:SVM划分鸢尾花
from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_split, GridSearchCVfrom sklearn.svm import SVCfrom sklearn.preprocessing import StandardScaler# 1.下载数据li=load_iris()# 2.划分训练集和测试集:random_state=1表示每次划分的训练集和测试集是一样的原创 2021-08-26 12:31:31 · 249 阅读 · 0 评论 -
机器学习基础知识(五):模型的选择与调优
一、交叉验证目的:为了让被评估的模型更加准确可信做法:所有数据分成n份,其中一份作为验证集,其他作为训练集。经过n次的数据轮换测试,得到n组模型的结果,取平均值作为最终结果,称为n折交叉验证。意义:使所有数据既有当训练集的机会,也有当验证机的机会。最后将求出平均值模型结果。二、网格搜索目的:调整参数,也成为超参数调整超参数:需要手动指定的参数。但由于手动过程繁杂,所以需要对模型预设几种超参数组合。每组超参数都采用交叉验证来进行评估,最后选出最优参数组合建立模型。需要调整参数的模型有:k近邻等等原创 2021-08-25 20:37:48 · 312 阅读 · 0 评论 -
机器学习算法基础(三):k近邻算法
一、k近邻算法k近邻算法用于分类:通过计算样本点和判别点之间的欧式距离,查看距离最小的k个样本点的所属类别,得出判别点的所属类别。· k近邻法需要对特征值进行标准化API:sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=‘auto’)其中,n_neighbors为int类型的可选参数,默认为5,表示邻居数目;algorithm:{‘auto’,‘ball_tree’,‘kd_tree’,‘brute’},表示计算最近邻居的原创 2021-08-25 20:16:23 · 239 阅读 · 0 评论 -
机器学习算法基础(二):数据划分、转换器和估计器
鸢尾花数据:150个样本,每个样本5个字段,5个字段可以表示成x1,x2,x3,x4,y其中y表示鸢尾花的类别,有一个类别是和另外两个线性可分的,另外两类不可分。目标:区分出其中一个类别方式:使用主成分分析方法降维,画图,区分具体操作:将前四列取出,设为矩阵x,求x的转置与x的乘积的特征值对应的特征向量,如果前n个特征值的和大于所有特征值的和的95%,那么可以说前n个特征值已经提取出足够多的信息了。即使只有少数变量,但是可以通过两两乘积来升维,来做一个曲面的分类。训练集和测试集,如果训练集上分类原创 2021-08-25 19:59:42 · 141 阅读 · 0 评论 -
机器学习基础知识(九):逻辑回归
一、基本概念逻辑回归:将回归转化成为二分类,并能得出概率值应用场景:广告点击率、是否为垃圾邮件、是否是金融诈骗问题:如何将回归转换成为分类解答:使用sigmoid 函数,将输入的数据转化成为一个[0,1]之间的数值,即概率值具体体现在下图的逻辑回归公式图中。其中,z表示回归的结果,e=2.71,g(z)为sigmoid函数。由此可知,逻辑回归和线性回归一样,都是输入数据,拟合参数。不同点在于逻辑回归用sigmoid函数将z值转化成了一个[0,1]之间的数值,默认阈值为0.5,由此变成了二分原创 2021-08-19 22:21:49 · 394 阅读 · 0 评论 -
机器学习基础知识(八):模型的保存和加载
from sklearn.externals import joblib保存:joblib.dump(rf,‘test.pkl’) # rf表示的是所拟合模型的名称,将拟合的模型的各项参数保存到test.pkl文件中下载:estimator = joblib.load(‘test.pkl’) #下载模型的各项参数from sklearn.datasets import load_bostonfrom sklearn.linear_model import Ridgefrom sklearn.原创 2021-08-19 17:39:00 · 369 阅读 · 0 评论 -
机器学习基础知识(七):线性回归、岭回归
回归问题:目标值连续分类问题:目标值离散一、线性回归概念线性关系:二维直线关系、三维平面关系线性回归:y=kx+b。其中,k、x和b可以为多维向量,表示的是多维属性和权重的一种组合。目标:使用线性回归式进行预测重难点:求解矩阵k矩阵运算:np.dot(a,b)矩阵的发明是为了简便运算二、寻找最优模型(一)思路因为预测结果与真实值之间存在误差,所以算法需要不断迭代,找到误差平方和最小的模型。方法一:最小二乘法的正规方程通过寻找损失函数(误差平方和)的最小值,得到能使总损失最小的k。缺原创 2021-08-19 17:06:10 · 299 阅读 · 0 评论 -
机器学习算法基础(六):决策树、随机森林
一、决策树的基本认识决策树是一种分类方法,需要监督学习。即在已知样本属性和分类结果的情况下,通过利用if-then结构(画出分类节点),对样本的属性增加条件以进行样本分类。然后利用决策树进行样本的分类测试。可以看到画出决策树,关键点就是在于如何找出能够使分类错误率最小的分类节点?问题①:如何确定属性的先后顺序?如何不要过拟合?二、信息论基础(一)信息熵如果是在完全不知道属性的情况下,猜测32支球队,哪一支能是冠军?使用二分法进行猜测,最多猜5次一定能猜中冠军队。log2(32)=5,我们说信息熵等原创 2021-08-10 21:48:35 · 321 阅读 · 0 评论 -
机器学习基础知识:精确率和召回率
判定一个模型是好是坏,应该从多个角度去评判一般最常使用的是准确率,即预测结果正确的百分比,API为:estimator.score()其他标准:首先介绍混淆矩阵混淆矩阵引出其他指标精确率(查得准):预测结果为正例样本中真是为正例召回率...原创 2021-03-14 17:42:16 · 473 阅读 · 0 评论 -
机器学习基础知识(四):朴素贝叶斯
原理:从由因推果到由果推因,贝叶斯公式改进:由于属于某一个类别的可能性为0不妥,因此需要在分子加上拉普拉斯平滑系数α(一般为1),分母加上α*m(m为训练文档中统计出的所有特征词)API:sklearn.naive_bayes.MultinominalNB(alpha=1.0)...原创 2021-03-11 12:07:17 · 2373 阅读 · 0 评论 -
机器学习算法基础(一):特征工程
机器学习参考书(建议入门后再看)一、机器学习概述(一)什么是机器学习从数据中自动分析获得规律,并用规律进行预测(二)为什么需要机器学习解放生产力:将繁琐但是不那么重要的工作交给机器做解决专业问题:为专业人士提供辅助提供社会便利:例如城市大脑,可以进行信息的收集和资源的调配,减轻例如城市交通的压力...原创 2021-01-09 20:48:40 · 470 阅读 · 0 评论