数据挖掘算法
文章平均质量分 86
学习笔记,仅限参考
shi_zi_183
这个作者很懒,什么都没留下…
展开
-
K最近邻算法
KNN算法分类是数据挖掘领域中的一种重要的技术,它是从一组已知的训练样本中发现分类模型,并且使用这个分类模型来预测待分析样本。建立一个有效的 分类算法模型最终将待分类的样本进行处理是非常有必要的。目前常用的分类算法主要有:朴素贝叶斯分类算法、支持向量机分类算法、KNN最近邻算法、神经网络算法、已经决策树等等。KNN的基本思想根据距离函数计算待分类样本X和每个训练样本的距离(作为相似度),选择与待分类样本的距离最小的K个样本作为X的K个最近邻,最后以X的K个最近邻中的大多数所属的类别作为X的类别。K原创 2021-10-12 11:58:16 · 309 阅读 · 0 评论 -
数据挖掘 回归分析
回归分析回归分析是一种应用极为广泛的数量分析方法。它用于分析事物之间的统计关系,侧重考察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系,以帮助人们准确把握变量受其他一个或多个变量影响的程度,进而预测提供科学依据。在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析、时间序列模型,以及发现变量之间的因果关系。回归分析概述基本概念回归分析是处理多变量间相关关系的一种数学方法。相关关系不同于函数关系,后者反映变量之间原创 2021-10-03 13:01:51 · 3295 阅读 · 2 评论 -
用mathplotlib实现数据可视化
用mathplotlib实现数据可视化mathplotlib架构matplotlib是一个Python工具箱,mathplotlib的核心是一套由对象构成的绘图API,Python借助它可以绘制多种多样的数据图形。matplotlib是一个Python工具箱,matplotlib的核心是一套由对象构成的绘图API,Python借助它可以绘制多种多样的数据图形。matplotlib的主要功能是提供了一套表示和操作图形对象以及它的内部对象的函数和工具。matplotlib不仅可以处理图形,原创 2021-09-14 22:56:25 · 841 阅读 · 0 评论 -
pandas库
pandas库pandas是Python的一个非常强大的数据分析库,提供了高性能易用的数据类型,以及大量能使我们能使我们快速便捷地处理数据地函数和方法。pandas地核心数据结构有两种,即一维数组地Series对象和二维表格型地DataFrame对象,数据分析相关地所有事务都是围绕这两种对象进行的。安装pandaspip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandasSeries对象Series对象的创建Series对象是一原创 2021-09-08 19:11:43 · 4183 阅读 · 0 评论 -
ufunc函数
ufunc函数ufunc简介ufunc是universal function的简称,它能对数组每个元素进行运算的函数。NumPy的许多ufunc函数都是用C语言实现的,因此它们的运算速度非常快。值得注意的是,对于同等长度的ndarray,np.sin()比math.sin()快但是对于单个数值,math.sin()的速度更快。角度转换成弧度:角度:a弧度:u=a/180*pi四则运算NumPy提供了许多ufunc函数,它们和相应的运算符运算结果相同。比较运算和布尔运算使用==,原创 2021-08-31 12:40:40 · 2231 阅读 · 0 评论 -
Numpy简介、ndarray详解
Numpy简介NumPy是Python的一种开源的数据计算扩展库。包含很多功能:1)创建n维数组(矩阵)2)对数组进行函数运算3)数值积分4)线性代数运算5)傅里叶变换6)随机数产生NumPy是在1995年诞生的Python库Numeric的基础上建立的。但真正促使NumPy的发行的是Python的SciPy库。SciPy是2001年发行的一个类似于Matlab,Maple,Mathematica等数学计算软件的Python库,它实现里面的大多数功能。但SciPy中并没有合适的类似于N原创 2021-08-24 15:38:34 · 3729 阅读 · 1 评论 -
数据挖掘与机器学习概论
数据挖掘与机器学习本章主要介绍课程概论,没有正式课程什么是大数据维基百科:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合IDC:一般会涉及2种以上数据形式,数据量100T以上,且是高速、实时数据库;或者从小数据开始,但数据每年增长60%Gartner:大数据的四个V:Volume(数据量巨大)、Vatiety(种类和来源多样化)、Velocity(分析处理速度快)、Value(价值密度低,商业价值高)另外IBM有大数据5V特征定义,增加了一个Veracity(真实原创 2021-08-17 12:04:13 · 333 阅读 · 0 评论 -
K-means算法
K-means算法K-meas算法背景介绍1、什么是K-means算法,K-means是一种无监督的聚类算法无监督与有监督的最明显的区别就是样本是否包含标签。有标签就是有监督的,没有标签的就是无监督的学习聚类算法是和分类算法相对于的,将不同样本归为同一类2、核心目标:将给定的数据划分成K个簇。并且给定每个簇的中心点,即质心。(means:平均值)计算步骤(1)数据预处理:剔除离群点、数据归一化、数据标准化。(通过预处理操作使得输入数据满足算法要求)。(2)初始化:随机选择K个中心点u1(0原创 2021-03-13 17:07:29 · 394 阅读 · 0 评论