作者 | Harper
审核 | gongyouliu
编辑 | auroral-L
决策树、KNN、k聚类均值
本期内容仍然是来自我们数据与智能创始人刘强翻译的这本《认识AI,人工智能如何赋能商业》,上一期给大家介绍了机器学习能够解决的问题类型。本期给大家分别介绍一下解决这些问题的不同算法,分别有决策树、knn算法和k均值聚类算法。
首先,决策树,它是选择行动方案或得出结论的流程图。通常用于监督学习的二分类问题。我们可以在网上找到很多用于创建决策树图形的应用程序。
使用决策树,可以指定许多决定最终预测结果的预测因子(也就是 特征)。例如,假设你想创建个决策树来 预测这个Joe是否会去海滩。第一步就是根据Joe过去的选择来创建训练数据。你可以创建一个包含四列的表,这四列分别是是天气、湿度、风和Joe是否去海滩。然后在四列中输人数据一前三列中输人特征, 然后在最后一列“Joe是否去海滩”中输人结果。
这就是决策树的基本思想,但我们也不一定需要创建决策树来发现模式,但是创建了决策树可以让我们很容易地做出决定,我们可以沿着某条分支一直走,直到到达某个叶子节点这个叶子节点所代表地结果就是你的最终选择了。当然为了降低树的复杂性,我们也可以去除一些分支,比如说,如果joe只在阴天或者晴天去海滩,我们就不需要从下雨进一步分支到大风或者微风,因为joe在这个决策点上已经做出了否定的决策。要注意,当在创建决策树的时候,我们需要有一个明确的路径来判定结果是yes还是no,如果很难做到这一点的话,你的树就可能会有太高的熵,也就是说,它太混乱了,需要太长的路径才能够得到一个准确的答案。
接下来简单说一下knn算法,knn算法也称k最近邻算法,它是基于相似性对数据进行分类,它适合于多分类问题。使用knn算法,基本上就是在图上绘制点,这些点表示具有特定特征的已知事物。然后你在同一个图上画一个点来表示一些未知事物,并根据它的近邻分类来对它进行分类。k表示最近邻居的数量。k值越高,邻居的类别会越广。
kNN算法是一种常见且功能强大的机器学习算法,金融界通常用它来寻找最好的股票,甚至预测未来的表现。但缺点是该算法需要很大的计算量,因此如果在大型数据集上使用kNN,机器可能需要一段时间来获得输出。
另一个常见的机器学习算法是k均值聚类算法,它容易与kNN算法混淆。然而,kNN是一种有监督的机器学习算法,而k均值聚类是一种无监督的机器学习算法。另一个区别是kNN中的k表示用于对未知项进行分类的最近邻居的数量,而k均值聚类中的k表示的是希望机器创建分类的数量。
举个例子,有一些大型零售商会使用聚类来决定邀请谁参加他们的某个优惠计划或何时开展促销活动。他们可能会创建三个用户组,称之为忠诚客户、不太忠诚的客户和最低价格的客户。然后,可以制定策略,试图将不太忠诚的客户提升为忠诚客户,或者可以邀请忠诚客户参加他们的优惠活动。还有一些公司会利用聚类来决定在哪里开设新店。比如说,如果它卖的是运动鞋,就可能会寻找那些跑步者最集中的地方开新店。要注意,k均值聚类和k最近邻都是基于实例的学习算法。需要把所有的数据注入,然后在一个大的实例集中寻找答案。
本内容来源于「数据与智能」创始人刘强翻译的畅销书「认识AI:人工智能如何赋能商业」,喜欢的读者可以点击下面链接直接购买。
本文的视频版本可以直接点击下面视频观看,欢迎关注数据与智能视频号获取更多精彩视频。