人工智能
不想人云亦云,于是来刨别家祖坟,一探究竟。
人工智能,一个热得不知所措的话题。就跟当年的“云”一样,聊得臭大街了,但什么是云?就想把你绕晕,其实都在云里雾里。
人工智能,artificial intelligence,缩写AI。由于命名的开放性,使得其定义轮廓较为模糊。简单来说,它是计算机学科的分支之一,是使用计算机模拟和学习人类思维过程和智能行为的学科。人工智能已经存在人们身边很久了。例如,搜索引擎对结果的排序,输入法的容错,相关新闻的推送,垃圾邮件的过滤等等。那么,如何让计算机具有人的思维方式呢?
机器学习
机器学习,machine learning,是指,让程序通过学习经验(即样本)E(Experience),完成任务T(Task),并不断提升任务完成准确率P(Performance)的过程。最著名的例子,alphago VS 李世石,前者通过学习不同棋手间的对弈,在人机对抗中,战胜围棋冠军。机器学习主要分为,监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)。
两者的区别在于,监督学习的E,为input & result。希望通过给定输入(input),预估输出(result)。而无监督学习的E,仅为input。希望将给定的输入(input),归为不同的簇集(未知的分类)。
有监督学习
有监督学习,用于处理回归(Regression)和分类(Classification)问题。回归问题,从坐标图像显示效果来看,可回归为连续(Continuous)的线型或面,而分类问题多为离散型(Discrete),星点状,或存在重叠区域。
例如,图1,最经典的房价预估问题。统计某一区域内,已成交的房屋面积和对应售价,为该区域内某一面积的房屋预估售价。通过回归分析,得到房价与面积的对应关系。
图1中的+为样本值,而直线和曲线分别是用不同方法得出的关系函数。从得到的对应关系来看,不同的对应关系(直线或者曲线)所预估的结果也不同。只有通过大量的样本学习,才能得出较为准确的关系函数。当然了,实际房价也不仅仅与面积有关。
分类问题也较为普遍,最经典的肿瘤疾病判断问题,例如,图2。通过肿瘤大小,位置,患者年龄等一系列指标,判定患者是否患有癌症(或者患有何种癌症)。如上图,不同的坐标轴可能代表肿瘤的大小,位置,患者年龄,当然,也可能是其它参数。对应点的颜色则可能代表肿瘤的种类。
无监督学习
无监督学习用于处理聚类(Clustering,或聚簇)问题。即从给定的经验(样本集)中,发现和找到规律,将数据分类。而这些分类是事先所不知道的。例如,通过对图3的学习,获取类似图4的聚类方法。
无监督学习的应用也很广泛。例如,对于新闻的自动分类。当你在阅读某一条“NBA 火箭队交易”的新闻时,文章尾部的扩展阅读,将会提供类似的新闻。
小结
至此,本文完成了对人工智能的简单描述,并了解了机器学习的两种主要方法,以及方法的经典应用场景。此后,将进一步深入细节,了解实现。