机器学习科普篇
机器学习综述
机器学习是一门既“古老”又“新兴”的计算机科学技术,隶属于人工自能(Artificial Intelligence)研究与应用的分支。
那什么是人工智能呢?
图灵在1950年发表的论文《Computing Machinery and Intelligence》中提出了“图灵测试”(Turing Test),用来判断一台计算机是否达到具备人工自能的标准。
机器学习系统特点
1
机器学习解决的问题都是无法直接使用固定规则或者流程代码完成的问题,通常这类问题对人类来说很简单。例如,我们人类可以非常容易从一张照片中区分出人和猫,而机器确非常难做到。
2
所谓具有学习能力的程序都是指它能够不断的从经理和数据中吸取经验教训,从而应对未来的预测任务。习惯称这种对未知的预测能力叫做泛化力(Generalization)。
3
机器学习系统更加厉害的地方是,它具备不断改善自身对应具体任务的能力。习惯称这种完成任务的能力为性能(Performance)。
机器学习的定义
如果一个程序在使用既有的经验(E)执行某类任务(T)的过程中被认定为是“具有学习能力的“,那么它一定需要展现出:利用现有的经验(E),不断改善其完成既定任务(T)的性能(P)的特质。
机器学习的任务分类
机器学习任务种类有很多,最经典且工业界应用最多的就是:监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)。
监督学习关注对事物未知表现的预测,一般包括分类问题(Classification)和回归问题(Regression)。
无监督学习则倾向于对事物本身特性的分析,常用的技术包括数据降维(Dimensionality Reduction)和聚类问题(Clustering)等。
分类问题
顾名思义,分类既是对其所在的类别进行预测。类别既是离散的,同时也是预先知道数量的。比如,根据一个人的身高、体重和三围等数据,预测其性别;性别不仅是离散的(男,女),同时也是预先知晓数量的。
回归问题
回归同样是预测问题,只是预测的目标往往是连续变量。比如,根据房屋的面积、地理位置、建筑年代等进行预售价格的预测,销售价格就是一个连续变量。
降维问题
数据降维是对事物的特征进行压缩和筛选。如果没有特定领域的知识,是无法预先确定采样哪些数据的;比如人脸识别,我们可以获取到图像的像素信息。若直接使用这些信息,维度会非常高,因此可以利用数据降维对图像进行降维,保留具有区分度的像素组合。
聚类问题
聚类则是依赖数据的相似性,把相似的数据样本划分为一个簇。不同于分类问题,大多数情况下不会预先知道簇的数量和每个簇的具体含义。现实生活中,大型电子商务网站经常对用户的信息和购买习惯进行聚类分析,一旦找到数量不菲并且背景相似的客户群,就是针对他们的兴趣投放广告和促销信息。
机器学习想要入门,仅仅这个科普是不够的,后续还会推出一系列DL文章,不仅仅是给小白兔的科普,也希望可以对于入门已久但是仍对机器学习不能自成体系的人一些帮助。越是接触的久了,学的多了就越应该谦虚虔诚的前行,希望一路都能看到您前行的身影。
参考文献:
Python机器学习及实践
机器学习
推荐阅读:
python 数据清洗篇(上)
python 数据清洗篇(下)
(视频讲解!!!)python量化 | 10年翻400倍的炒股策略