习题答案
记录看书时一些课后习题的答案
KeEN丶X
这个作者很懒,什么都没留下…
展开
-
Learning Data Mining with Python - Chapter2
所有代码以及数据包均来自《Learing Data Mining with Python (Robert Layton 著)》。使用环境为Jupyter Notebook。Chapter 22.1 scikit-learn估计器为了帮助用户实现大量分类算法,scikit-learn把相关功能封装成所谓的估计器,它包括 fit() 和 predict() 两个函数,也就是训练步和测试步。下面...翻译 2019-06-13 21:27:24 · 742 阅读 · 2 评论 -
Learning Data Mining with Python - Chapter1
所有代码以及数据包均来自《Learing Data Mining with Python (Robert Layton 著)》。使用环境为Jupyter Notebook。Chapter 1第一个例子是亲和性分析。数据挖掘中有个常见的应用场景,就是顾客在购买一件商品时,可能会愿意同时购买另一件商品,当收集到足够的数据后,就可以进行亲和性分析。商家可以利用这样的规则提高销售额,比如有名的例子“...翻译 2019-05-29 17:19:21 · 689 阅读 · 1 评论 -
数据挖掘导论课后习题答案-第八章(下)
最近在读《Introduction to Data Mining 》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。第八章(下)(a)会有问题。比如有1000个点分为两个簇,一个簇900个点,另一个簇100个点,抽5%的样本,那么第一个簇抽取45个点,另一个簇抽5个点,那么这五个点相比较于50个点很可能被当作噪声。(b)有问...翻译 2019-05-18 17:54:41 · 10153 阅读 · 1 评论 -
数据挖掘导论课后习题答案-第八章(上)
最近在读《Introduction to Data Mining 》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。第八章...翻译 2019-05-17 22:43:26 · 19570 阅读 · 8 评论 -
数据挖掘导论课后习题答案第九章
最近在读《Introduction to Data Mining 》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。第九章考虑文档数据,如果两个文档是相似的那么它们包含很多相同的词,并且没出现的词在大部分情况下都是无意义的。当一个文档中的词频繁出现,那么这个词在相似性度量上会占比较大的比重。举例来说,如果一个词有多个意思,那么可...翻译 2019-05-22 22:25:35 · 3458 阅读 · 0 评论 -
数据挖掘导论课后习题答案-第十章
最近在读《Introduction to Data Mining 》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。第十章...翻译 2019-05-26 21:35:19 · 3761 阅读 · 0 评论 -
数据挖掘导论课后习题答案-第七章
最近在读《Introduction to Data Mining 》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。第七章(a)(b) 5(c)候选项集:10+28+3=41频繁项集:8+10+0=18(d)候选项集:5+10+0=15频繁项集:5+3+0=8(e)d中产生较少的项集(a)D1:...翻译 2019-05-11 20:36:52 · 10117 阅读 · 3 评论 -
数据挖掘导论课后习题答案-第六章
最近在读《Introduction to Data Mining 》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。第六章...翻译 2019-05-03 23:34:19 · 41626 阅读 · 34 评论 -
数据挖掘导论课后习题答案-第五章
最近在读《Introduction to Data Mining 》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。第四章(a)不互斥(b)是穷举的(c)需要排序,测试集很可能不仅由行车里程属性决定,并且会命中多条规则。(d)不需要,每条测试记录都能至少命中一条规则。(a)FOIL = 300 × [ log2 ...翻译 2019-04-26 22:15:08 · 52082 阅读 · 19 评论 -
数据挖掘导论课后习题答案-第四章
最近在读《Introduction to Data Mining 》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。第四章(a)Gini = 1 - ( 0.5 )2 - ( 0.5 )2 = 0.5(b)每个结点的 Gini = 0,因此总的Gini = 0.(c)男:Gini = 1 - ( 0.6 )2...翻译 2019-04-16 23:13:24 · 57110 阅读 · 27 评论 -
数据挖掘导论课后习题答案-第三章
最近在读《Introduction to Data Mining 》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。第三章优点:第一,颜色可以很容易地区分不同的部分。第二,看起来更加有趣。缺点:第一,对色盲或者那些很难分辨颜色的人不太友好。第二,有的时候灰度图更能突出重点,颜色图会让人关注一些不重要的部分。关键的问题是对于...翻译 2019-04-13 17:29:09 · 12406 阅读 · 1 评论 -
数据挖掘导论课后习题答案-第二章
最近在读《Introduction to Data Mining 》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。第二章字段3 × 3≈字段2。字段2和字段3很有可能包含相同的信息,尽管从一个很小的样本中得出结论是非常不可靠的行为。(a)二元的,定性的,序数的(b)连续的,定量的,比率的(c)离散的,定性的,序数的...翻译 2019-04-08 19:13:44 · 32517 阅读 · 3 评论 -
数据挖掘导论课后习题答案-第一章
最近在读《Introduction to Data Mining 》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。第一章(a)不是。这只是简单的数据库查询操作。(b)不是。但预测一个新顾客是否可赢利则是一个数据挖掘任务。(c)不是。(d)不是。(e)不是。如果骰子是均匀的,那么每个面出现是等可能的,这是一个简单的概率论...翻译 2019-04-05 23:17:29 · 10280 阅读 · 0 评论