目录
机器学习重点:理解算法原理,掌握算法使用技能,熟练掌握python库中的一些算法(算法是核心,数据和计算是基础),学会利用库和框架解决问题
一 机器学习概述
·机器学习开发流程
1)获取数据
2)数据处理
3)特征工程
4)使用机器学习算法进行训练——得到模型
5)模型评估
6)应用
·学习目标
1.算法原理及算法使用:在学习过程中注意算法的原理,而不只是重现代码
2.熟悉算法使用,结合应用场景解决实际问题
3.掌握使用机器学习算法库和框架的技能
·机器学习概述
1)定义:从数据中自动分析获得规律模型,利用规律进行数据预测
· 机器学习算法分类
1.监督学习
1)分类问题:目标值是类别(离散型数据)
2)回归问题:目标值是连续型的数据(连续型数据)
2.无监督学习
3)无监督学习:没有目标值
·学习方向定位
1.分析大量数据
2.分析具体业务
3.应用常见算法
4.特征工程、调参数、优化
二 数据集
·数据集的组成
1)数据存储和读取
1.机器学习的数据存储在 文件csv
2.基于numoy库的pandas库读取数据速度快
3.python是动态语言,虽然是多线程,但多线程不是同时进行,numpy释放了GIL做到速度快
2)学习阶段可用数据集
3)常用数据集数据结构组成
1.特征值+目标值,根据给定的特征值分析得到目标值,机器学习给定的数据都是特征值,由特征值得到目标值
2.每一行数据读可以称为一个样本
3.有些数据集可以没有目标值
·scikit-learn介绍及使用
1)使用导入库代码
import sklearn
2)sklearn数据集使用
1.数据集的使用:
2.获取小数据集
sklearn.datasets.load_iris()
3.获取大数据集
3)sklearn数据集返回值介绍
1.返回值介绍:返回的数据类型继承自字典,可以用相应的字典函数方法获取相应的值
(注意:拿来的数据不要全部用来得到模型,还有一部分要用来评估模型)
2.调用数据集、获取数据集里面的相应数据:
3.numpy是sklearn的基础库之一,sklearn返回值类型有numpy库的二维数组
4)数据集的划分
·训练数据和测试数据
·数据集划分(要注意返回值顺序),数据集划分使用前要先导入库
·数据集划分返回值顺序:训练集特征值、测试集特征值、训练集目标值、测试集目标值
三 特征工程
·特征工程定义
1)特征工程定义
将原始数据转换成更好代表预测模型的潜在问题的特征的过程,从而提高了对未知数据预测的准确性。特征工程在数据处理过程中的位置及重要性(对数据的特征进行处理)
2)特征工程和数据处理
1.特征工程工具:sklearn,对特征的处理提供了强大的接口
2.pandas:数据清洗、数据处理
3)特征工程包含内容
1.特征抽取/特征提取
2.特征预处理
3.特征降维