数据挖掘
文章平均质量分 81
编程轨迹_
修罗社区 | 掘金优秀创作者 | 清华大学出版社签约作者 | Web3 开发者 | CSDN 银牌讲师 | 蓝桥云课2021年度人气作者Top2 | 工信部蓝桥认证命题人 | CSDN 博客专家 | 腾讯云2022 年度优秀作者 | 阿里云专家博主 | 华为云享专家 | 著作:《前端面试复习笔记》|《Web3 开发系列教程》|《ThreeJS 在网页中创建动画》|《ElementUI 详解与实战》|《PWA 渐进式Web应用开发》
展开
-
【数据挖掘·简读】01 引言
四种任务 数据挖掘的过程通常分为四种主要的任务: 预测建模。主要两种方法:分类和回归。 分类:预测离散目标变量; 回归:预测连续目标变量; eg:预测鸢尾花的种类。(Dataset:http://www.ics.uci.edu/~mlearn) 关联分析。发现描述数据中强关联特征的模式。 eg:购物篮分析,如{尿布}–>{牛奶} 聚类分析。发现紧密相关的观测值组群。 eg:文...原创 2018-05-14 16:16:18 · 310 阅读 · 0 评论 -
【数据挖掘·简读】02 数据
数据集的一般特性 维度:数据集中的对象具有的属性数目。常涉及”维灾难“和”维归约“问题。 稀疏性:非对称特征数据集,一个对象的大部分属性值都为0。只存储与处理非零值。 分辨率 :不同分辨率下数据性质不同。 数据挖掘的任务常假定数据集是记录的汇集,每个记录包含固定的数据字段(属性)集。 记录数据 事务数据:是一种特殊类型的记录数据,其中每个记录(事务)设计一个项的集合。如,一次购物购...原创 2018-05-14 17:00:59 · 405 阅读 · 0 评论 -
【数据挖掘导论】书籍小册(一)绪论
数据挖掘导论 一、绪论 数据仓库:一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持决策分析。 数据挖掘是数据库中知识发现(KDD)不可缺少的一部分,KDD是将未加工的数据转换为有用信息的整个过程。如图: 数据预处理:包括清洗数据以便消除噪声和重复的观测值,以及选择与当前数据挖掘任务相关的记录和特征。它是整个知识发现过程中最费力、最耗时的步骤。 后处理:将有效和有用...原创 2018-08-14 08:12:02 · 380 阅读 · 0 评论 -
【scikit-learn 估计器】 距离方法
本节和后面几个章节,将记录scikit-learn估计器。 估计器主要用于分类任务,主要有两个函数: fit() : 训练算法。2个参数:训练数据集,类别。 predict() : 预测算法,用以预测测试集类别,返回类别数组。 1个参数:测试集。 邻近算法 对新个体分类时,需要查找训练集,找到与该新个体最相似的个体,然后根据该个体所属类别将新个体归类到该类别下。 例如:当我们要预...原创 2018-10-11 21:11:35 · 952 阅读 · 0 评论