机器学习:
介绍
1、分析数据获得一个模型
2、使用模型对未知数据预测
语言选择:python
样本数据: 一般都是存储的文件形式,(由于存在传统数据库会格式、以及文件量太大)
现有产品:百度AI 平台
样本数据(数据集的获取)
kaggle 数据平台
UCI
sklearn
一个纯净的样本数据集对模型的构造很重要;
实现特征工程: 采用语言 python 的 sklearn (方式: 分类模型、 回归模型、聚类模型、特征工程)
特征工程
特征抽取:
字典的特征抽取: 作用:对字典数据特征值化
重点内容:
1、预处理
2、特征选择
预处理:
对数值型数据进行处理(数值通过特征值化获得)
无量纲化:为的加快模型求解速度(把不同的规格获得分布转换成相同的规格获得特点的分布)