![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 79
qq_27540235
这个作者很懒,什么都没留下…
展开
-
K-means
概述 K-means聚类算法也称k均值聚类算法,是集简单和经典于一身的基于距离的聚类算法。它采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为类簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。 算法核心思想 K-means聚类算法是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间...原创 2019-12-29 23:12:57 · 240 阅读 · 1 评论 -
决策树算法
一、决策树分类原理 决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。 近来的调查表明决策树也是最经常使用的数据挖掘算法,它的概念非常简单。决策树算法之所以如此流行,一个很重要的原因就是使用者基本上不用了解机器学习算法,也不用深究它是如何工作的。直观看上去,决策树分类器就...原创 2019-12-22 21:56:16 · 330 阅读 · 1 评论 -
逻辑回归算法
原创 2019-12-15 23:21:21 · 118 阅读 · 0 评论 -
机器学习第四周
1、线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。 相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。 以双变量为例,变量X和变量Y之间存在三种关系:正线性相关、负线性相关、不是线性相关(有可能是曲线相关,只不过不是线性的): 2、衡量相关性程度 (1)判断两个变量的相关性方向是正线性相关或负线性相关:...原创 2019-12-01 22:54:09 · 144 阅读 · 0 评论 -
机器学习第三周
数据预处理之数据无量纲化 在进行特征选择之前,一般会先进行数据无量纲化处理,这样,表征不同属性(单位不同)的各特征之间才有可比性,如1cm 与 0.1kg 你怎么比?无量纲处理方法很多,使用不同的方法,对最终的机器学习模型会产生不同的影响。本文将对常用的无量纲化技术进行总结,试图指出他们的适用场景,并给出在Python中的相应调用方式。正文中每列代表一个 属性/特征,每行表示一个/条 样本。 ...原创 2019-11-24 22:34:29 · 158 阅读 · 0 评论 -
机器学习第二周
数据拆分:将原始数据中的一部分作为训练数据、另一部分作为测试数据。使用训练数据训练模型,再用测试数据看好坏。即通过测试数据判断模型好坏,然后再不断对模型进行修改。 accuracy_score:函数计算分类准确率,返回被正确分类的样本比例(default)或者是数量(normalize=False) 在多标签分类问题中,该函数返回子集的准确率,对于一个给定的多标签样本,如果预测得到的标签集合与该样...原创 2019-11-17 22:39:44 · 153 阅读 · 0 评论 -
机器学习第一周
kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。 K近邻是一种基本分类与回归的方法 可以简单粗暴的认为是:K个最近的邻居,当K=1时,算法便成了最近邻算法,即寻找最近的那个邻居。为何要找邻居? 打个比方来说,假设你来到一个陌生的村庄,现在你要找到与你有着相似特征的人群融入他们,所谓入伙。 或者,我们判断一个人的人品,只需要观察他来往最密切的几个...原创 2019-11-17 19:59:53 · 136 阅读 · 0 评论 -
统计学第三周作业
#数据的描述性统计 import math import numpy as np import pandas as pd #众数 def zhongshu(num_list): counts=np.bincount(num_list) return np.argmax(counts) #中位数 def zhongweishu(num_list): return np.median(num_list...原创 2019-11-17 19:41:06 · 120 阅读 · 0 评论