F#真棒 - 决策树 - 第一部分_f#适合做什么?-CSDN博客

Programming F#这本书已经发行了! 这意味着你可以,也应该去商店并买上一本.

既然已经有Programming F# 这么出色的F#语言编程指导书了,那么对于语言特性而言,我更愿意写更多关于程序方面的东西. 这就是说,让我们看看,能用这么棒的F#语言做些什么.

这是名为”F#真棒”系列博客中的第一篇.这些博客为我们展示了先进的,贴近实际的F# 应用程序能做的不可思议的事情.这篇博客是关于决策树和ID3算法的,这些问题最初在StackOverflow.com上讨论的很激烈。

如果你想学习更多关于数据挖掘技术和机器智能学习知识，Tom Mitchell编写的Machine Learning 将是本很好的书籍。但是，提醒一下大家，这是我读过的内容最严谨且知识密度很大的书。真的，不是开玩笑的！

定义这个问题

那么，ID3算法是做什么的呢？它是用来创建决策树一项技术，就如同下图中用来决定是不是去打网球一样。从最上面的节点开始，如果天气是阴天，那么你就应该去打球。然而，如果是雨天，那么只有当风很小的时候你才应该去打球。

除了帮助策划你的体育活动，决策树也是用来收集商业情报一种简单地方法。假设，你经营着一家位于宾夕法尼亚州的斯克兰顿的造纸公司。你有一个收集了众多客户的IP地址的数据库，包括谁访问了你的网站，谁需求的产品中有一些特殊交易，那个谁是否已经取消了购买纸品。

这种情况下，你就需要数据挖掘技术来抽取有用的数据了。那么，这种情形下，如何优化你的销售额呢?

基于你拥有数据的类型与你查找的内容，有很多不同的数据挖掘技术算法。这篇博客将覆盖决策树——一种根据数据来预测其概念的机器学习技术。（例如，根据一个浏览器会话预测此用户是否会买些什么。）

更形象点：给定一个以”name/value”作为键值对的实例集合——判断值链在哪里断开——创建一个决策树来精确地识别任何一个新加的实例。在上面的例子中，这些name/value键值对就是Outlook:{Sunny,Rainy,Overcast}，类别就是”是否去打网球”。

方法

这里最简单的方法就是尽可能多的创建树的分枝。根据练习的数据，先找到最合适的分枝，然后根据更多特定的特征子集条件继续筛减数据集。例如，如果试图根据某人将从网站上购买产品来判断他是否是一位老顾客，那么这将是一件很有价值的信息。

为了找到”黄金分割”我们将使用被称为”信息增益”的方法。　但是首先，让我们看看信息理论中的一个名为”熵”的概念。假设你想创建一个决策树来判断某人是不是一个邪恶天才。每个论据包含了一些如性别、是否拥有博士学位等信息。

熵和信息增益是衡量你从给定的分枝中获取信息多少的度量单位。如果正好50%的邪恶天才都是男性，那么你没能从性别分枝中获取任何有用的信息。（因为树的左右两边的邪恶天才数量是一样的。）然而，为了判定邪恶天才，教育情况将显得非常重要——因为我们假设大部分邪恶天才在很多方面拥有博士学位。那么，这个决策树将会尤为有效，在削减筛选这些数据到同类别的组：是否为邪恶天才。

输入数学公式

信息增益和熵只是些简单的概念，而数学就有点恐怖了。让我们使用下面的数据来继续完成这个邪恶天才预测器：