机器学习
把无序的数据转换成有用的信息。e.g. 人脸识别、手写数字识别、垃圾邮件过滤、产品推荐
监督学习
只需给定输入样本集,机器就可以从中推演出指定目标变量的可能结果。算法必须知道预测什么,即目标变量的分类信息。
- 分类:主要预测标称型数据,即目标变量的结果只在有限目标集中取值。
- 回归:主要预测数值型数据,即目标变量可以从无限的数值集合中取值。
关键术语
- 特征(属性)
- 训练集
- 目标变量:机器学习算法的预测结果
- 测试数据:应是随机选择的
开发步骤
- 收集数据—爬虫、实测、数据源等
- 准备数据—数据格式处理
- 分析数据—确保没有垃圾数据
- 训练算法—无监督学习跳过此步
- 测试算法
- 使用算法
Q&A
如何弥补Python的性能问题?
使用Python调用C编译的代码。如果程序是按照模式化原则组织的,先构造可运行的Python程序,然后再逐步使用C代码替换核心代码。—可用C++Boost库或其他类似于Cython和PyPy的工具