机器学习
文章平均质量分 89
机器学习
-Helslie
这个作者很懒,什么都没留下…
展开
-
【集成学习】Task 1导论
目录1 导论1.1 回归1.2 分类1.3 无监督学习1 导论有监督学习:给定某些特征去估计因变量,即因变量存在的时候,我们称这个机器学习任务为有监督学习。如:我们使用房间面积,房屋所在地区,环境等级等因素去预测某个地区的房价。无监督学习:给定某些特征但不给定因变量,建模的目的是学习数据本身的结构和关系。如:我们给定某电商用户的基本信息和消费记录,通过观察数据中的哪些类型的用户彼此间的行为和属性类似,形成一个客群。注意,我们本身并不知道哪个用户属于哪个客群,即没有给定因变量。1.1 回归以sk原创 2021-03-15 20:25:35 · 196 阅读 · 0 评论 -
[机器学习]决策树相关知识点
决策树算法是基于树结构进行决策学习的,目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循简单而直观的“分而治之”的策略。导致递归返回的情形(即无划分行为):无需划分:当前结点包含的样本全属于同一类别无法划分:当前属性集为空,或是所有样本在所有属性上取值相同我们把当前结点标记为叶结点,井将其类别设定为该结点所含样本最多的类别不能划分:当前结点包含的样本集合为空...原创 2020-03-19 15:36:32 · 835 阅读 · 0 评论 -
[机器学习]k-NN算法相关知识点
开一个新专题,每次讲一个机器学习算法的知识点。k近邻(k-Nearest Neighbor, 简称k-NN)学习是一种常用的监督学习方法。工作机制: 给定测试样本,基于某种距离度量找出训练集中与其最靠近的 k 个训练样本,然后基于这 k 个"邻居 “的信息来进行预测 . 既可以回答分类问题,也可以回答回归问题。通常,在分类任务中可使用**“投票法” 即选择这 k 个样本中出现最多的类别标记作...原创 2020-03-15 15:50:02 · 318 阅读 · 0 评论 -
机器学习小组第三周:简单的数据预处理和特征工程
学习目标● 无量纲化:最值归一化、均值方差归一化及sklearn中的Scaler● 缺失值处理● 处理分类型特征:编码与哑变量● 处理连续型特征:二值化与分段学习资料首先,参考:《机器学习的敲门砖:归一化与KD树》及《特征工程系列:特征预处理(上)》中相关部分。其次,其他知识点可参考推荐博文:sklearn中的数据预处理和特征工程 。20200311数据归一化在量纲不同的情...原创 2020-03-14 14:34:23 · 202 阅读 · 0 评论 -
机器学习小组第二周:如何评价模型的好坏
决定改掉拖延症,不再等待,能做的东西立马做。学习目标1、数据拆分:训练数据集&测试数据集2、评价分类结果:精准度、混淆矩阵、精准率、召回率、F1 Score、ROC曲线等3、评价回归结果:MSE、RMSE、MAE、R Squared首先,建议阅读《机器学习的敲门砖:kNN算法(中)》(https://mp.weixin.qq.com/s/vvCM0vWH5kmRfrRWxqXT8...原创 2020-03-05 15:53:01 · 306 阅读 · 0 评论 -
机器学习小组第一周:机器学习的敲门砖kNN算法
20200224因为今年的寒假实在太长,今天本来应该是开学的第一天,此时却只能在家里自主学习,学校正式线上授课的日子是3月9号,所以报名了一个机器学习小组一起学习机器学习算法的原理和实现啦。学习目标1.了解kNN算法的思想及其原理2.使用python手动实现kNN算法,并在sklearn中调用kNN算法3.了解监督学习和非监督学习的概念学习资料1.阅读《机器学习的敲门砖:kNN算法》...原创 2020-02-24 13:12:27 · 182 阅读 · 0 评论