![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 88
木夕敢敢
这个作者很懒,什么都没留下…
展开
-
K近邻算法(k-Nearest Neighbour, KNN)
KNN算法思想k-最近邻(k-Nearest Neighbour, kNN)算法是一种常用的监督学习方法,其工作机制非常简单靠近的 个训练样本,然后基于这 个"邻居 “的信息来进行预测 在分类任务中可使用"投票法” 即选择这 个样本中出现最多的类别标记作为预测结果;在回归任务中时使用"平均法" ,即将 个样本的实值输出标记平均值作为预测结果;还可基于距离远近进行加权平均或加权投票,距离越近的样本权重越大.是一种基于距离的分类算法,不需要事先建立分类模型,仅利用有类别标号的样本集,直接对没有类原创 2022-04-24 12:41:43 · 2752 阅读 · 0 评论 -
数据挖掘——序列模式挖掘
《数据挖掘》青岛大学数据挖掘之序列模式挖掘时间序列:将某一指标在不同时间上的不同数值,按照时间先后顺序排列而成的数列。时间序列的建模方法:一元时间序列:通过单变量随机过程的观察获得规律性信息。多元时间序列:通过多个变量描述变化规律。离散型时间序列:序列中的每一个序列值所对应的时间参数为间断点。连续型时间序列:序列中的每个序列值所对应的时间参数为连续函数。序列模式挖掘:从序列数据集中寻找频繁子序列作为模式的知识发现过程。• 序列模式挖掘最早是由Agrawal等人提出的,最初动机是针对原创 2022-04-21 17:33:40 · 7096 阅读 · 0 评论 -
数据处理代码记录
轨迹数据处理1. 文件读取(1) 单个文件读取或输出import pandas as pddf1 = pd.read_csv("文件地址\文件名称.csv",header=0,index_col=0,usecols=[1,2,3]) # 指定表头、序号列、使用的列df2 = pd.read_excel("文件地址\文件名称.xls/xlsx",sheetname=0,header=0,index_col=0) # 指定读取的sheetdf1.to_csv("文件地址\文件名称.csv")df原创 2022-04-20 23:12:48 · 1860 阅读 · 0 评论 -
数据挖掘——关联规则挖掘
《数据挖掘》国防科技大学《数据挖掘》青岛大学数据挖掘之关联规则挖掘关联规则挖掘(Association Rule Mining)最早是由Agrawal等人提出。最初的动机是解决购物篮分析(Basket Analysis)问题,目的是发现交易数据库(Transaction Database)中不同商品之间的联系规则。定义关联规则是描述在一个交易中物品之间同时出现的规律的知识模式,更确切的说,关联规则是通过量化的数字描述物品X的出现对物品Y的出现有多大的影响。关联分析 association ana原创 2022-04-17 17:07:38 · 10296 阅读 · 0 评论 -
数据挖掘——聚类
《数据挖掘》国防科技大学《数据挖掘》青岛大学《数据挖掘与python实践》数据挖掘之聚类1. 划分聚类K-means每次聚类保证局部最优,随后调整聚类,利用局部最优聚类的上限来不断逼近全局最优。采用距离作为相异度的评价指标,以簇内差异函数w©作为聚类质量的优化目标函数,即将所有数据对象到它的簇中心点的距离平方和作为目标函数,算法寻找最优聚类的策略是使目标函数达到最小值(簇中心不变化等价于w©达最小)。优点:① k-means算法简单、经典,常作为其它聚类算法的参照或被改进。② k原创 2022-04-11 21:13:35 · 7140 阅读 · 0 评论 -
数据挖掘 / 机器学习——决策树
第四章 决策树一、概述1. 任务属性分类任务2. 结构根结点:样本全集内部结点:表示一个特征或属性叶结点:表示一个类3. 基本算法4. 生成过程决策树的生成是一个递归过程。有三种情形会导致递归返回:①当前结点包含的样本全属于同一类别,无需划分;②当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;【把当前结点标记为叶结点,将其类别设定为该结点包含样本最多的类别-利用当前结点的后验分布】③当前结点包含的样本集合为空,不能划分。【把当前结点标记为叶结点,但将其类别设定为其父节点所含原创 2022-04-11 20:41:28 · 4245 阅读 · 0 评论 -
数据挖掘——逻辑回归
《数据挖掘》国防科技大学数据挖掘之逻辑回归回归问题 Regression回归分析是研究一个或多个自变量与一个因变量之间是否存在某种线性关系或非线性关系的一种统计学方法。线性回归多项式回归逻辑回归决策树回归线性回归一元线性回归:y = a + bx线性关系刻画(点到直线的距离)点到直线的距离公式(垂直距离)点到直线的纵向距离(竖直距离)最小二乘法逻辑回归参数估计正则化w在数值上越小与能抵抗数据的扰动。优化优化求解梯度下降法梯度的本意是一个向量原创 2022-04-11 10:16:34 · 627 阅读 · 0 评论 -
数据挖掘——朴素贝叶斯分类
《数据挖掘》国防科技大学《数据挖掘》青岛大学Python:贝叶斯分类贝叶斯分类基于贝叶斯定理,是机器学习的核心方法之一。目前研究较多的贝叶斯分类器主要有四种:朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)TANBANGBN数据挖掘之朴素贝叶斯分类• 朴素贝叶斯分类器有坚实的数学基础,以及稳定的分类效率。同时,此模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。贝叶斯定理最终的目标就是求得p(类别|特征) 。• 朴素贝叶斯中的朴素就是原创 2022-04-10 20:41:52 · 2421 阅读 · 0 评论 -
数据挖掘——数据预处理
《数据挖掘》国防科技大学《数据挖掘》青岛大学《数据挖掘与python实践》数据挖掘之数据预处理1. 数据清洗 Data Cleaning数据清洗:缺失值、噪声数据、离群点、不一致数据(1)对于丢失数据:忽略元组(对象),特别是缺少类标签时删除缺失值比例较大的属性手动补全:麻烦自动插值:均值、众数等(2)对于噪声数据和离群点:识别噪声数据并去除:聚类、回归使用箱线图检测离群点并删除平滑噪音以降低噪声数据的影响:分箱法binning、概念分层分箱法: 按箱平均值平滑 按箱原创 2022-04-09 21:14:08 · 6836 阅读 · 0 评论 -
数据挖掘——认识数据
《数据挖掘》国防科技大学《数据挖掘》青岛大学《数据挖掘与python实践》数据挖掘之认识数据1. 数据和信息**数据(data)**是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。在计算机系统中,各种字母、数字符号的组合、语音、图形、图像等统称为数据,数据经过加工后就成为信息。2. 数据对象及属性类型数据集由数据对象组成,一个数据对象对应一个实体,数据对象也可以成为元组。用于表示数据对象的特征或功能的数据字段称为属性。属性类型:标称属性 nomin原创 2022-04-09 16:41:49 · 3302 阅读 · 0 评论