![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
进击的小绵羊
这个作者很懒,什么都没留下…
展开
-
数据挖掘概念与技术(第三版)课后答案——第三章
=============需要原版答案请留言!!==============3.1 数据质量可以从多方面评估,包括准确性、完整性、一致性问题。提出其他两个方面的数据质量。准确性:对于一些需要进行精准营销的商品,比如蛋糕店的生日蛋糕、孕妇必备物品等,以上这些商品则需要数据的准确性。完整性:如果要对某宝、某东或者某宁的买家信息进行一个数据挖掘,从而用来营销其他东西,比如要对地址进行挖掘,此时详细、完整的地址数据则是一个必备的特性。一致性问题:由于某些不可抗因素而导致的数据不一致,比如技术问题.原创 2020-07-03 23:30:30 · 31343 阅读 · 224 评论 -
数据挖掘概念与技术(第三版)课后答案——第二章
=============================需要原版答案请留言!!!======================================2.1 再给三个用于数据散布特征的常用统计量(即未在本章讨论过的),并讨论如何在大型数据库中有效的计算它们。1.异众比率(variation ratio):用Vr表示,其定义为:,其中∑fi表示变量值的总频数,∑fm表示众数组的频数。异众比率主要用于衡量众数对一组数据的代表程度。异众比越大,说明非众数组的频数占总频数的比重越大,众数的代原创 2020-06-28 16:30:50 · 23427 阅读 · 38 评论 -
数据挖掘概念与技术(第三版)课后答案——第一章
1.1 什么是数据挖掘?在你的回答中,强调以下问题:(a)它是又一种广告宣传吗?(b)它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗?(c)我们提出了一种观点,说数据挖掘是数据库技术进化的结果。你认为数据挖掘也是机器学习研究进化的结果吗?你能基于该学科的发展历史提出这一观点吗?针对统计学和模式识别领域,做相同的事。(d)当把数据挖掘看做知识发现过程时,描述数据挖掘所涉及的步骤。答:数据挖掘不是一种广告宣传,它是一个应用驱动的领域,数据挖掘吸纳了诸如统计学习、机器学原创 2020-06-24 15:27:57 · 11007 阅读 · 19 评论 -
机器学习——python之matplotlib的使用——①
1.安装matplotlib 库pip install matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple//2.折线图2.1折线图的绘制from matplotlib import pyplot as plt# x轴的位置x = range(1, 8) # y轴的位置y = [17, 17, 18, 15, 11, 11, 13]# 传入x和y, 通过plot画折线图plt.plot(x, y) # 显示plt.原创 2020-09-15 22:25:22 · 309 阅读 · 0 评论 -
数据挖掘概念与技术(第三版)课后答案——第五章
5.6在计算(a)每个基本单元生成个聚合单元。(例如,我们减去1,因为(a1,a2,a3,...,a100)不是聚合单元,是基本单元。)因此,两个基本单元生成个聚合单元,但是,这些单元中有4个是记录2次。这四个单元分别是(a1,a2,∗,...,∗),(a1,∗,...,∗),(∗,a2,∗,...,∗)和(∗,∗,.. 。,∗)。 因此,产生的非空聚集单元总数为个。(b)总共4个,分别为:{(a1,a2,∗,...,∗), (a1,∗,∗,...,∗), (∗,a2,∗,...,∗), (∗,∗原创 2020-07-10 19:40:05 · 10078 阅读 · 23 评论 -
数据挖掘概念与技术(第三版)课后答案——第四章
=============需要原版答案请留言!!==============4.1 试述多个异构信息源的集成,为什么许多公司更喜欢更新驱动的方法(构造和使用数据仓库),而不是查询驱动的方法(适用包装器和集成器)。 描述查询驱动的方法比更新驱动的方法更可取的情况。对于决策查询和经常问到的查询,更新驱动的方法更为可取。这是因为昂贵的数据集成和聚合计算是在查询处理时间之前完成的。为了将在多个异构数据库中收集的数据用于决策过程,必须分析和解决多个数据库之间的任何语义异构问题,以便可以对数据进行集成和汇总。原创 2020-07-08 15:45:27 · 18870 阅读 · 243 评论