机器学习
文章平均质量分 81
麦格芬230
这个作者很懒,什么都没留下…
展开
-
关于概率图模型的问题
对于输入序列X,整个标签序列的得分等于各个位置的得分之和,每个位置的得分包括两部分,一部分是发射分数,一部分是转移分数,将两个分数的和相加,得到了序列y的分数。在每一时刻,计算当前时刻落在每种隐状态的最大概率,并记录这个最大概率是从前一时刻的哪一个隐状态转移过来的,最后再从结尾达到最大概率的那个隐状态回溯,就可以得到最有可能的最优路径。用极大似然估计的方法估计A,B,π矩阵的参数,用Baum-Welch(鲍姆-韦尔奇)算法迭代计算,根据结果再调整A,B,π矩阵的参数,再迭代,最后收敛。.........原创 2021-10-01 21:44:03 · 450 阅读 · 0 评论 -
基于 TensorFlow 的回归分析
2.1基于TensorFlow线性回归本实验将学习如果在TensorFlow环境下进行线性回归。方框中的代码您可以复制到远程桌面的jupyter notebook中,建议手动输入以达到更高的学习效果。开始我们的实验!键入如下代码加载相关的包:import numpy as npimport tensorflow as tfimport matplotlib.patch...原创 2020-12-31 22:25:55 · 354 阅读 · 1 评论 -
支持向量机
1. 支持向量机(SVM)是什么意思?SVM是从样本中找到超平面wx+b=0,为了评判哪个超平面最好,引入了几何间隔最大化的目标,之后所有的推导都是为了解决目标函数的最优化。在解决最优化的过程中,发现了w可以由特征向量内积来表示,进而发现了核函数,仅需要调整核函数就可以将特征进行低维到高维的变换,在低维上进行计算,实质结果表现在高维上。由于并不是所有的样本都可分,为了保证SVM的通用性,进行了软间隔的处理,导致的结果就是将优化问题变得更加复杂,但是松弛变量没有出现在最后的目标函数中。最后的优化求解问题,原创 2020-12-08 10:24:19 · 86 阅读 · 0 评论 -
关于正则化的问题
1.L1、L2的特点是什么?L1范数(Lasso Regularization):向量中各个元素绝对值的和。L2范数(Ridge Regression):向量中各元素平方和求平方根。L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择。L2正则化可以防止模型过拟合(overfitting);一定程度上,L1也可以防止过拟合。...............原创 2020-04-17 00:41:01 · 587 阅读 · 0 评论 -
决策树
1. 决策树的算法有哪些?ID3算法使用了信息增益来选择特征,信息增益大的优先选择。在ID3算法中,显然属性的取值越多,信息增益越大。为了避免属性取值个数的影响, C4.5算法用信息增益率(信息增益除以划分前熵)最高的分类作为选择特征规则。无论是ID3还是C4.5,会涉及大量的对数运算。CART算法使用基尼指数最小的分类作为选择特征的规则。基尼指数的意义是:从数据集D中随机抽取两个样本,其类别不同的概率。基尼指数越小,则数据集D的纯度越高。...原创 2020-12-07 11:32:05 · 148 阅读 · 0 评论 -
逻辑回归
1. 什么是逻辑回归?逻辑回归是用来做分类算法的,线性回归一般形式是y=ax+b,y的取值范围是[-∞, +∞],把y的结果代入Sigmoid函数中,即可得到[0,1]之间取值范围的数s,s可以把它看成是一个概率值,如果我们设置概率阈值为0.5,那么S大于0.5可以看成是正样本,小于0.5看成是负样本,就可以进行分类了。2. Sigmoid函数及其导数是什么?函数:导数:3. 损失函数是什么?损失函数是对数损失函数。在分类任务当中,模型预测输出结果是样本为1的概率值;那么如果原创 2020-12-07 10:52:31 · 148 阅读 · 0 评论 -
KFold与StratifiedKFold的区别
KFold交叉采样:将训练/测试数据集划分n_splits个互斥子集,每次只用其中一个子集当做测试集,剩下的(n_splits-1)作为训练集,进行n_splits次实验并得到n_splits个结果。sklearn.model_selection.KFold(n_splits=3,shuffle=False,random_state=None) n_splits:表示将数据划分几等份shuffle:在每次划分时,是否进行洗牌若为False,其效果相当于random_state为整数...原创 2020-07-23 13:52:02 · 1125 阅读 · 0 评论 -
关于机器学习的问题
梯度提升决策树GBDT是一种基于集成思想的决策树模型,即每颗树学的是之前所有树结论之和的残差,这个残差就是一个加预测值后能得真实值的累加量,将每次预测出的结果与目标值的残差作为下一次学习的目标。,称为Level-wisetreegrowth,同一层的所有节点都做分裂。LightGBM进行进一步的优化,采用的。SVM只考虑分类面附近的点,即支持向量,所以对离群点不敏感;一个叶子的直方图可以由它的父亲节点的直方图与它兄弟的直方图做差得到。可以直接输入类别特征,不需要额外的0/1展开。......原创 2020-04-14 20:05:37 · 248 阅读 · 0 评论 -
矩阵分解/Boosting
一、矩阵分解(一)基于矩阵分解的推荐系统推荐值矩阵R里有一些值是已知的,如果我们将R分解为两个矩阵U和P,U的每一行代表一个用户画像向量,P的每一行代表一个物品的画像向量。如果U和P能够分别准备表达用户和画像向量,那么U和的乘积中的值就应该是推荐值。假设用户对物品 的喜好的值是取决于几个(假设是k个)因素,我们不知道这些因素是什么,所以我们命名他们为隐性因子。评分(Rating)矩阵包...原创 2019-08-04 00:49:00 · 482 阅读 · 0 评论 -
决策树与随机森林/K-means
一、决策树与随机森林(一)决策树1.算法概述决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。决策树优点:可以对复杂和非线性的数据建...原创 2019-07-20 20:56:08 · 3203 阅读 · 2 评论 -
机器学习介绍/K-NN最近邻
一、机器学习介绍(一)什么是机器学习机器学习就是把无序的数据转换成有用的信息。(二)术语特征或者属性通常是训练样本集的列,它们是独立测量得到的结果,多个特征联系在一起共同组成一个训练样本。机器学习的主要任务就是分类。通常为算法输入大量已分类数据作为算法的训练集。为了测试机器学习算法的效果,通常使用两套独立的样本集:训练数据和测试数据。(三)机器学习的任务机器学习的另一项任务...原创 2019-06-29 11:32:10 · 442 阅读 · 0 评论 -
SVM支持向量机
一、算法概述支持向量机是一种分类器。之所以称为“机”是因为它会产生一个二值决策结果,即它是一种决策“机”。支持向量机的泛化错误率较低,也就是说它具有良好的学习能力,且学到的结果具有很好的推广性。这些优点使得支持向量机十分流行,有些人认为它是监督学习中最好的定式算法。支持向量机的分类方法,是在一组分布中找出一个超平面作为决策边界,使模型在数据上的分类误差尽量接近于小,尤其是在未知数据集上的分...原创 2019-07-13 10:28:39 · 611 阅读 · 1 评论 -
线性回归与逻辑回归/朴素贝叶斯
一、线性回归与逻辑回归(一)线性回归1. 算法概述回归的目的是预测数值型的目标值。线性回归的优点:结果易于理解,计算上不复杂。缺点:对非线性的数据拟合不好。适用数据类型:数值型和标称型数据。回归的一般方法:(1) 收集数据:采用任意方法收集数据。(2) 准备数据:回归需要数值型数据,标称型数据将被转成二值型数据。(3) 分析数据:绘出数据的可视化二维图将有助于对数据做出理解和分...原创 2019-07-04 18:09:40 · 1529 阅读 · 0 评论 -
线性回归-梯度下降-diabetes
数据集:https://scikit-learn.org/stable/datasets/特征:age 年龄sex性别bmi体质指数bp血压s1,s2,s3,s4,s4,s6 六种血清的化验数据标签:value一年后疾病进展的量化指标一、加载库import numpy as npimport pandas as pdfrom sklear...原创 2019-06-12 20:55:58 · 239 阅读 · 0 评论 -
逻辑回归-cancer
数据集:https://scikit-learn.org/stable/datasets/特征(30个):mean radius 569 non-null float64mean texture 569 non-null float64mean perimeter 569 non-null float64mean area 569 non-null float64mean smoot...原创 2019-06-12 22:02:51 · 226 阅读 · 0 评论 -
KMeans聚类-credit_card
Data columns (total 18 columns):CUST_ID 8950 non-null objectBALANCE 8950 non-null float64BALANCE_FREQUENCY 8950 non-null f...原创 2019-06-13 10:37:48 · 574 阅读 · 0 评论 -
感知器-cancer
数据集:https://scikit-learn.org/stable/datasets/特征(30个):mean radius 569 non-null float64mean texture 569 non-null float64mean perimeter 569 non-null float64mean area 569 non-null float64mean smoot...原创 2019-06-13 11:13:56 · 136 阅读 · 0 评论 -
KNN分类-breast_cancer
数据集:https://scikit-learn.org/stable/datasets/特征(30个):mean radius 569 non-null float64mean texture 569 non-null float64mean perimeter 569 non-null float64mean area 569 non-null float64mean smoot...原创 2019-06-11 21:31:51 · 1331 阅读 · 1 评论 -
KNN回归-diabetes
数据集:https://scikit-learn.org/stable/datasets/特征:age 年龄sex性别bmi体质指数bp血压s1,s2,s3,s4,s4,s6 六种血清的化验数据标签:value一年后疾病进展的量化指标一、加载库import numpy as npimport pandas as pdfrom sklearn i...原创 2019-06-11 22:44:06 · 931 阅读 · 0 评论 -
线性回归-最小二乘-diabetes
数据集:https://scikit-learn.org/stable/datasets/特征:age 年龄sex性别bmi体质指数bp血压s1,s2,s3,s4,s4,s6 六种血清的化验数据标签:value一年后疾病进展的量化指标一、加载库import numpy as npimport pandas as pdfrom sklear...原创 2019-06-12 20:53:35 · 256 阅读 · 0 评论