1.典型应用
股价预测、推荐引擎、自然语言识别、语音识别、图像识别、人脸识别
2.机器学习的基本问题
1)回归问题:根据已知的输入和输出寻找某种性能最佳的模型,将未知输出的输入代入模型,得到连续的输出。
2)分类问题:根据已知的输入和输出寻找某种性能最佳的模型,将未知输出的输入代入模型,得到离散的输出。
3)聚类问题:根据已知输入的相似程度,将其划分为不同的群落。
3.基本步骤
数据处理
-
数据收集 (数据检索mysql,redis、数据挖掘hadoop hive、爬虫)
-
数据清洗
-
特征工程
机器学习
-
选择模型 (算法)
-
训练模型 (算法)
-
评估模型 (工具、框架、算法知识)
-
测试模型
业务运维
-
应用模型
-
维护模型
4.数据预处理
# 数据预处理
# 解决机器学习问题的科学计算工具包
import sklearn.preprocessing as sp
import numpy as np
# 标准化(均值为0,标准差为1,均值移除)
sample = np.array([[17., 100., 4000],