大家在画决策树的过程中,一定非常希望能画出带有中文特征名称或类别名称的决策树。但我们直接用graphviz画图时,中文却会出现乱码。如下图所示,相信大家都遇见过:在红酒数据集中,将feature_names和class_name是设为中文的后果
于是乎,本人在网上搜索了一些攻略,但很多博客复制黏贴,且错误百出,我在综合了好几篇博客后,才成功画出中文的决策树。所以想重新梳理下解决办法,供各位参考。
1、修改graphviz配置文件
我们首先要找到你电脑中的graphviz文件夹中叫做"fonts"的文件,你可能会发现有两个文件夹都有fonts,分别是C:\Program Files (x86)\Graphviz2.38\etc\fonts和C:\ProgramFiles (x86)\Graphviz2.38\fonts。请将两个fonts文件分别用记事本打开。如果有
则将其修改为
。此处可能会有一个fonts文件已经正确,则请忽略改文件。此外,保存可能需要管理员权限,我自己是将这个fonts文件另存在桌面后,再复制到原路径替换,才成功的。2、将决策树dot_data文件保存下来,修改字体并保存为 UTF-8格式
保存下来的目的是为了dot_data文件的字体,并将其转换为UTF-8格式。例如: dot_data = tree.export_graphviz(clf,out_file = None ,feature_names= feature_name,class_names=["琴酒","雪莉","贝尔摩德"] ,fill