1 概括
机器学习研究数据,探索数据背后影藏的信息,将数据转化为有用的信息供决策使用。机器学习跨学科,涉及计算机科学、工程技术、统计学等等。统计学工具可帮我们解决那些无法建立精确的数学模型的问题。
机器学习的主要任务就是分类和回归,下图显示了一些算法。
2 机器学习的步骤
- 收集数据
方法很多(网络爬虫、传感器、公共开源数据等) - 准备输入数据
得到数据–> 转换成程序可以处理的格式(如python中的列表)–>具体到Feature和Label时,明确类型(string, int or?) - 分析输入数据
人工分析数据(空值,异常值)–>能否通过可视化观察数据? - 训练算法
根据是否有tag,选择监督和无监督算法。 - 测试算法
可以准备训练集和测试集。 - 使用算法
利用得到的模型,应用的实际工程中。