NLTK 实现决策树分类器DecisionTreeClassifier

最新推荐文章于 2024-11-29 10:23:33 发布

原创

最新推荐文章于 2024-11-29 10:23:33 发布 · 442 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #nltk

本文介绍了如何利用NLTK库在鸢尾花数据集上构建决策树分类器。由于NLTK的数据格式要求，需要将鸢尾花的四个特征组合成一个字典参数，并结合其类别进行训练。最终模型达到约97.8%的准确率。

NLTK也提供了决策树分类器（DecisionTreeClassifier）。不过它的用法与sklearn中的不同，而且提供的例子是文本分类的例子，收敛很慢。本文根据sklearn中的鸢尾花例子修改。
因为NLTK的决策树分类器与sklearn的输入数据格式不同，需要修改。鸢尾花是有4个参数的，因此需要用iris_features将4个参数组合为一个参数：

def iris_features(iris,result):
    features = {
   
   }
    for item in iris:
        features[item]=result
    return features```
格式如下：

```python
({
   
   4.9: 2.0, 2.5: 2.0, 4.5: 2.0, 1.7: