数据挖掘
程东青
这个作者很懒,什么都没留下…
展开
-
2020-08-22
基于网格的STING方法有什么优点由于存储在每个单元中的统计信息描述了单元中数据的与查询无关的概要信息,所以基于网格的计算是独立与查询的网格结构有利于并行处理和增量更新该方法的效率很高,STING扫描数据库一次来计算单元的统计信息,因此产生聚类的时间负载是O(n),n是对象的数目网格结构有助于并行处理和更新该方法的时间复杂度低效率高网格的计算是独立与查询的...原创 2020-08-22 20:39:30 · 135 阅读 · 0 评论 -
数据挖掘之数据预处理
这里写目录标题衡量数据质量的要素数据预处理的主要任务数据清理的任务属性选择与处理填充空缺值噪声数据的处理不平衡数据的处理数据集成的任务数据规约的目的数据变换与离散化衡量数据质量的要素准确性、完整性、一致性、时效性 、可信性和可解释性数据预处理的主要任务数据清理填充缺失值、平滑噪声数据、识别并删除孤立点、解决不一致问题数据集成将多个数据库或数据文件进行集成数据规约在取得相同条件下,减少特征数量数据变换数据格式、取值区间等的标准化数据清理的任务属性选择与处理选取原则尽可能赋予属性原创 2020-08-15 17:40:32 · 833 阅读 · 0 评论 -
数据挖掘之认识数据
数据对象与数据属性第一种分类标称属性:能够用有限个元素进行描述的集合,标称属性的值一般是一些事物或符号的名称二员属性:只有 两个状态的枚举属性序列属性:值的顺序具有意义的属性数值属性:可用整数或实数表示的属性区间标度属性:使用相等的单位尺度度量,可以定量评估属性值之间的差eg:华氏温度与摄氏温度比率标度属性:具有固定的零点的数值属性eg:开始温度、工作年限、重量高度和速度第二种分类机器学习的分类算法有把属性分类离散属性和连续属性离散属性,具有有限个数的取值或无限可数的取值war原创 2020-08-15 13:50:45 · 331 阅读 · 0 评论