![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 79
__山顶洞人__
这个作者很懒,什么都没留下…
展开
-
lightGBM算法API参数说明
1 lightGBM的安装windows下:pip3 install lightgbmmac下:安装链接2 lightGBM参数介绍2.1 Control ParametersControl Parameters 含义 用法 max_depth 树的最大深度 当模型过拟合时,可以考虑首先降低 max_depth min_data_in_leaf 叶子可能具有的最小记录数 默认20,过拟合时用 feature_fraction 例如原创 2021-09-13 10:34:58 · 559 阅读 · 0 评论 -
XGBoost API 参数
1 xgboost的安装:官网链接:https://xgboost.readthedocs.io/en/latest/pip3 install xgboost2 xgboost参数介绍xgboost虽然被称为kaggle比赛神奇,但是,我们要想训练出不错的模型,必须要给参数传递合适的值。xgboost中封装了很多参数,主要由三种类型构成:通用参数(general parameters),Booster 参数(booster parameters)和学习目标参数(task parame原创 2021-09-12 16:34:58 · 432 阅读 · 0 评论 -
机器学习中的Bagging
一、前言(1)集成学习集成学习通过建立几个模型来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。(2)集成学习中boosting和Bagging在集成学习中boosting是用来解决欠拟合问题,Bagging是用来解决过拟合问题。只要单分类器的表现不太差,集成学习的结果总是要好于单分类器的。二、Bagging和随机森林(1)Bagging集成原理目标:把下面的圈和方块进行分.原创 2021-04-02 17:02:12 · 579 阅读 · 0 评论 -
决策树API、泰坦尼克号生存预测案例
一、决策树API在sklearn中使用sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)构建决策树其中:criterion 特征选择标准 "gini"或者"entropy",前者代表基尼系数,后者代表信息增益。一默认"gini",即CART算法。 min_samples_split 内部节点再划分所需最小样本数 这个值限制了子树继续划分的条件,如果某节点原创 2021-03-31 18:21:46 · 233 阅读 · 0 评论 -
机器学习中的特征提取
特征提取是将任意数据(如文本或图像)转换为可用于机器学习的数字特征,特征提取是为了计算机更好的去理解数据。特征提取大体上可以分为三大类:字典特征提取(特征离散化) 文本特征提取 图像特征提取(深度学习)本篇文章中我们只讨论前两种特征提取方法。一、字典特征提取作用:对字典数据进行特征值化。APIsklearn.feature_extraction.DictVectorizer(sparse=True,…)DictVectorizer.fit_transform(X) X:字原创 2021-03-30 16:48:55 · 7461 阅读 · 0 评论 -
ID3、C4.5、cart决策树的比较
(1)公式:(2)ID3 算法缺点:ID3算法在选择根节点和各内部节点中的分支属性时,采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息. ID3算法只能对描述属性为离散型属性的数据集构造决策树。(3)C4.5算法 做出的改进(为什么使用C4.5要好) 用信息增益率来选择属性 可以处理连续数值型属性 采用了一种后剪枝方法 对于缺失值的处理C4.5算法的优缺点 ...原创 2021-03-30 11:50:47 · 1772 阅读 · 0 评论 -
基尼值和基尼指数
CART 决策树 [Breiman et al., 1984] 使用"基尼指数" (Gini index)来选择划分属性。CART 是Classification and Regression Tree的简称,这是一种著名的决策树学习算法,分类和回归任务都可用。一、基尼值和基尼指数基尼值Gini(D):从数据集D中随机抽取两个样本,其类别标记不一致的概率。故,Gini(D)值越小,数据集D的纯度越高。数据集 D 的纯度可用基尼值来度量: ...原创 2021-03-30 11:39:40 · 6278 阅读 · 1 评论 -
熵、信息增益、信息增益率
一、熵(1)原理初中物理我们对“熵”这个东西懵懵懂懂,印象中仿佛对物体内部的热效应有关,时隔这么多年在机器学习、深度学习领域的学习中又看见了它的踪影,不免有点让人有点熟悉又陌生的感觉。“熵”这个东西看不见又摸不着,到底什么是“熵”?“熵”是用来干什么的?“熵”是一个系统里面的混乱程度的度量、标尺。系统混乱程度越低,系统的熵值越小,反之越大。我们先从物理学的角度出发,假设相同条件下有一桶冰水和一桶热水,哪一个的熵值会大呢?冰水中的分子热运动速度较慢,内部的分子排布比较有规律。热水内部温原创 2021-03-29 21:42:45 · 9847 阅读 · 0 评论 -
机器学习分类任务中怎么解决类别不平衡问题
一、准备工作(1)Imblearn安装当遇到数据类别不平衡的时候,我们该如何处理。在Python中,有Imblearn包,它就是为处理数据比例失衡而生的。安装Imblearn,默认是在python3.6版本及以上。在安装的时候注意要使用管理员的权限,否则可能会报错,如果是windows系统,要是用管理员方式打开cmd窗口,如果是linux环境,需要加上sudopip install imbalanced-learn(2)创造类别不平衡数据集from sklearn.dataset原创 2021-03-29 11:59:56 · 815 阅读 · 2 评论 -
分类模型的评估方法
(1)混淆矩阵在分类任务中,预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合,构成混淆矩阵,既适用于二分类任务,又适用于多分类任务。(2)精确率(Precision)与召回率(Recall)准确率 =(TP+TN)/ (TP+FP+FN+TN)精确率:预测结果为正例样本中真实为正例的比例(了解) = TP / (TP + FP)召回率:真实为正例的样本中预测结果为正例的比例(查得全,对正样本的区分能力) = TP.原创 2021-03-28 22:53:14 · 3156 阅读 · 0 评论 -
逻辑回归、肿瘤预测案例
一、逻辑回归(1)定义与使用场景逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归。由于算法的简单和高效,在实际中应用非常广泛。应用场景举例:是否为垃圾邮件 是否患病 金融诈骗 虚假账号看到上面的例子,我们可以发现其中的特点,那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的一种方法。(2)逻辑回归的输入与输出逻辑回归的输入其实就先线性回归的输出,可以简单的理解h(w)就是逻辑回归的输入。..原创 2021-03-28 20:47:36 · 778 阅读 · 0 评论 -
sklearn中线性回归API介绍、波士顿房价预测
一、线性回归api(1)通过正规方程优化sklearn.linear_model.LinearRegression(fit_intercept=True)通过正规方程优化 参数 fit_intercept:是否计算偏置 属性 LinearRegression.coef_:回归系数 LinearRegression.intercept_:偏置 (2)通过梯度下降方法优化sklearn.linear_model.SGDRegressor(loss="squared_loss"原创 2021-03-27 11:58:13 · 828 阅读 · 0 评论 -
sklearn 数据集划分和数据预处理
机器学习一般的数据集会划分为两个部分:训练数据:用于训练,构建模型 测试数据:在模型检验时使用,用于评估模型是否有效划分比例:训练集:70% 80% 75% 测试集:30% 20% 25%数据集划分apisklearn.model_selection.train_test_split(arrays, *options) 参数: x 数据集的特征值 y 数据集的标签值 test_size 测试集的大小,一般为float random_state 随机数种子,不同的种原创 2021-03-25 11:12:37 · 1152 阅读 · 0 评论 -
机器学习中常用的距离
1 距离公式的基本性质2 常见的距离公式2.1 欧式距离(Euclidean Distance):欧氏距离是最容易直观理解的距离度量方法,我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。举例:X=[[1,1],[2,2],[3,3],[4,4]];经计算得:d = 1.4142 2.8284 4.2426 1.4142 2.8284 1.41422.2曼哈顿距离(Manhattan Distance):...原创 2021-03-18 22:32:17 · 477 阅读 · 0 评论 -
sklearn实现K-近邻算法、鸢尾花分类、facebook签到位置预测
1 K-近邻算法(KNN)概念K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法。如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。2 KNN算法流程1)计算已知类别数据集中的点与当前点之间的距离2)按距离递增次序排序3)选取与当前点距离最小的k个点4)统计前k个点所在的类别出现的频率5)返回前k个点出现频率最高的类别作为原创 2021-03-18 22:08:44 · 264 阅读 · 0 评论 -
随机森林构造过程中为什么要随机抽样训练集?而且要有放回的抽样?
1.为什么要随机抽样训练集?如果不进行随机抽样,每棵树的训练集都一样,那么最终训练出的树分类结果也是完全一样的2.为什么要有放回地抽样?如果不是有放回的抽样,那么每棵树的训练样本都是不同的,都是没有交集的,这样每棵树都是“有偏的”,都是绝对“片面的”(当然这样说可能不对),也就是说每棵树训练出来都是有很大的差异的;而随机森林最后分类取决于多棵树(弱分类器)的投票表决。...原创 2020-09-20 08:45:23 · 1578 阅读 · 1 评论 -
正规方程的推导过程
原创 2020-09-15 18:24:28 · 421 阅读 · 0 评论