目录
python里面包含定义好的数据结构以及很多库函数、方法、模型等(即API)。
我们只需要选择一个合适的框架,通过调用其中的API,编写少量代码就可以快速建立机器学习模型了。
一、机器学习中常用的库
pandas 和 numpy 提供数据结构,支持数学运算;
matplotlib和seaborn用于数据可视化;
4个库提供算法,其中scikit-learn是机器学习框架,tensorflow、keras和pytorch则是深度学习框架。
二、机器学习项目实战架构
(1)问题定义
(2)数据的收集和预处理
收集:有的是自有数据,有的需要去网上爬取,有时候去各种开源数据网站下载......
预处理:
可视化,从各种角度看一看数据;
数据向量化,把原始数据格式化,使得机器可以读取的数字矩阵,将文字转换为one-hot编码,文本类别转换成0、1这样的数值;
处理坏数据和缺失值;
特征缩放,包括数据标准化(standardization)和规范化(normalization);
特征工程和特征提取;
载入数据集。
(3)选择机器学习模型
线性模型(线性回归、逻辑回归)
非线性模型(支持向量机、k最邻近分类)
基于树和集成的模型(决策树、随机森林、梯度提升树)
神经网络(人工神经网络、卷积神经网络、长短期记忆网络)
(4)训练机器,确定参数
确定内部参数:权重和偏置
超参数:训练和调试过程的参数(迭代多少次,学习率,正则化)