机器学习:
机器学习:通俗易懂的讲就是让机器学习人的行为能力,去代替人执行某些复杂的计算,毕竟对于一些庞大的数据,人的计算速度是非常缓慢的,换句话说,其实就是一个经验学习的过程。近年来,机器学习已经被用到了不同的领域,如:人脸识别,图像识别,手写识别,垃圾邮件分类等方方面面。
本人在编写的过程中主要使用编程环境为Anaconda,pycharm,以及如下的一些机器学习库文件。
- numpy 用于进行数组的操作
- scipy 具有线性代数高级程序,数学函数优化,信号处理,特殊数学函数和统计分布等功能
- matplotlib 是python的主要绘图函数
- pands 用于处理和分析数据的库
- mglearn 主要用于绘图美化
以上这些库文件在pycharm安装不便,大家可以将我上传的资源下载后复制到pycharm的安装目录pycharm\lib\site-package下即可。
机器学习主要分为两大类:
机器学习主要学习过程或者说步骤如下:
1.输入大量学习资料(即训练数据:X_train,y_train)得到一个模型
2.在得到的模型基础上用sklearn的fit()函数去拟合
3.给该模型一个新的输入样例,利用该模型进行预测
4.输出预测结果
5.利用评估函数对模型的优劣进行评估
分类问题
所谓分类问题,就是说通过我们已有的机器学习模型,能够将我们待预测的数据进行一个分类,最常见的就是二分类问题,以及多分类问题。
例如:已有一个水果识别模型,他的结果集合是[苹果,橘子],那么现在给定一个水果让该模型进行预测,那么结果只能是苹果或者橘子,这就是一个二分类问题。
例如:该水果识别模型,他的结果集合是[苹果,橘子,香蕉,西瓜],那么给定一个水果利用该模型进行预测,那么结果只能是这四个当中的某一个。这就是一个典型的四分类问题,通常情况下,我们把多余两个的分类问题统称为多分类问题。
回归问题
所谓回归问题,就是说,通过我们的机器学习模型,对数据集进行预测所得到的结果是一个具体的数值,而不是像多分类问题那样从一个结果集合中选择答案。
例如:利用房屋的面积和房子的价格数据集所形成的一个学习模型,当我给定一个新的数据(房子的面积),那么利用该模型会预测出一个确切的数值(房子价格)。