《Scala机器学习》一一1.6　相关性的基础

最新推荐文章于 2024-07-23 10:34:10 发布

weixin_34381666

最新推荐文章于 2024-07-23 10:34:10 发布

阅读量171

点赞数

文章标签：人工智能 scala 操作系统

原文链接：https://yq.aliyun.com/articles/174319

版权

1.6　相关性的基础
读者可能已经注意到，从列联表检测相关性是很难的。检测模式来源于实践，但许多人更擅长于识别可视化的模式。检测行为模式是机器学习的基本目标之一。虽然高级的监督机器学习技术将在第4章和第5章中讨论，但对变量之间相互依存关系的初步分析可得到正确的数据转换（或最佳的推理技术）。
目前有很多成熟的可视化工具及相关的网站（如http://www.kdnuggets.com）都专注于数据分析、数据研究和可视化软件的排名以及推荐。本书不会去质疑该排名的有效性和准确性，但确实很少有网站会介绍用Scala进行数据可视化的具体方法。其实Scala确实能做可视化，比如用D3.js包。一个好的可视化可将你的发现展示给更多的观众，因为一图胜千言。
本章会使用Grapher进行可视化，Mac OS的笔记本上都有这个软件。打开Grapher，先进入Utilities（在Finder中执行），然后点击Grapher图标（或者按下，然后通过名字进行搜索）。Grapher有许多选项，包括对数-对数（Log-Log）和极坐标(Polar)选项，如图1-7所示。

从根本上讲，可视化信息的数量受限于屏幕像素点的个数，对于目前的大多数计算机而言，屏幕像素个数可达百万级，并且有各种颜色（Judd, Deane B.; Wyszecki, Günter (1975). Color in Business, Science and Industry. Wiley Series in Pure and Applied Optics (3rd ed.). New York）。对于一个TB级别的多维数据集，首先需要对数据汇总并进行处理，以减小尺寸，使其能显示在电脑屏幕上。
下面用Iris数据集来举例说明，该数据集可以在https://archive.ics.uci.edu/ml/datasets/ Iris获取。把数据导入Grapher中，需要输入以下命令（在Mac OS上）：

在Grapher中新建一个点集（Point Set）（）。点击编辑点（Edit Points），并按下粘贴数据。该工具具有拟合基本的直线、多项式、指数分布等函数族的能力，并能通过卡方度量按自由参数的数量来评估拟合的优劣：

图1-8　在MacOS上使用Grapher来拟合Iris数据集
下一章会讨论如何评估模型拟合的优劣。

weixin_34381666

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Scala机器学习》一一1.6　相关性的基础

1.6　相关性的基础读者可能已经注意到，从列联表检测相关性是很难的。检测模式来源于实践，但许多人更擅长于识别可视化的模式。检测行为模式是机器学习的基本目标之一。虽然高级的监督机器学习技术将在第4章和第5章中讨论，但对变量之间相互依存关系的初步分析可得到正确的数据转换（或最佳的推理技术）。目前有很多成熟的可视化工具及相关的网站（如http://www.kd...
复制链接

扫一扫