简介
什么是机器学习?
机器学习就是从【数据】中自动分析,获得【规律(模型)】,并利用规律对未知数进行【预测】。
样本数据(数据集)的载体
- 通常情况下历史数据都不会存储在数据库中,而是存储在文件中(.csv文件)
- 数据库存储数据存在的问题:
性能瓶颈:数据量级大的数据很难存储和进行高效的读写。
数据存储格式不符合机器学习要求的数据格式。
样本数据的获取途径:
- kaggle: 数据竞赛平台。
- UCI数据集:是一个常用的机器学习标准测试数据集,是加州大学欧文分校提出的用于机器学习的数据库
- sklearn:一个可以获取的模型库