![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 59
code_new_life
这个作者很懒,什么都没留下…
展开
-
K-means 法 小结
k-means 是一种聚类算法,这里首先明确一下分类和聚类的区别。分类:指从数据中归纳出一种做判断的模型,对于新的数据,通过这个模型,可以给出对应的标签。最常见的比如邮件分类器。开始系统并不认识什么是垃圾邮件,但是通过“训练”(比如你将内容中出现“大促销”的邮件都标记为垃圾邮件)一段时间后,如果新的邮件中出现‘大促销’的字段,系统会直接将此邮件打上‘垃圾’的标签。聚类:是将数据划分成不同区...原创 2018-05-25 10:46:30 · 10888 阅读 · 1 评论 -
决策树 算法 小结
算法概述决策树 是一种基本的分类与回归方法。这里我们主要讨论用于分类的决策树。在分类过程中,根据各个特征对实例进行分类,它可以认为是 if - then 规则的集合,最大的优点是可读性强,分类速度快。 决策树 的学习通常包含三个步骤:特征选择、决策树的生成和决策树的剪枝。首先我们通过一个日常例子来直观了解一下 什么是决策树 生活中父母在为孩子介绍对象时候,发生的经典对话女儿...原创 2018-06-04 16:08:17 · 259 阅读 · 0 评论 -
K 近邻法 小结
原理概述:K 近邻法(KNN)是一中基本的分类与回归方法。其原理:假设给定一个训练数据集,其中各个数据的类别已知,当给定一个未知类别的数据 x 时候,可以得到训练数据集中 “ 距离 ” x 最近的K 个数据的类别,再根据这K个数据的类别,来决定 x 的最终类别。简单的讲就是:你周围的人是什么样子,我们就认为你是什么样子。模型基本要素基本要素分三个,分别为:K 值的选择;距离的度量;...原创 2018-05-24 09:39:04 · 249 阅读 · 0 评论 -
偏度(skewness)
偏度 偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。定义上偏度是样本的三阶标准化矩。偏度定义中包括正态分布(偏度=0),右偏分布(也叫正偏分布,其偏度>0),左偏分布(也叫负偏分布,其偏度<0)。为了在模型中避免因为偏度问题带来的误差,通常可以使用对数来达到目的转载自:https://blog.csdn.net/...原创 2018-07-01 16:27:53 · 13954 阅读 · 0 评论 -
LabelEncoder 和 OneHotEncoder 辨析
在特征工程工程中处理离散数据时候,需要将原来的数据转化成数字格式才能传入 模型,这时候需要用到两个编码函数1 labelEncoder LabelEncoder 可以理解为一个打标签的机器 首先 通过 fit 列表 a 来得到所有标签的种类, a 中可以有重复的数据,这个种类也就是 a 中所有不同数据的 集合,可以通过 le.classes_ 来查看,并且会给定顺序,每个数据有对...原创 2018-06-28 22:54:04 · 13246 阅读 · 0 评论