机器学习
1.什么是机器学习
- 官方解释:从数据中自动分析获得规律(模型),并利用规律对位置数据进行预测
- 自我认知:
- 模型
- 算法模型,是一个特殊的对象,该对象中已经集成或者封装好了某种形式的方程/算法(还没求出解的方程)。
- 模型的作用
- 预测:可以通过方程或者算法产生一个新的未知的数据/事物
- 分类:可以将一个未知归类的事物给其归属到一个已有的类群中。
- 注意:算法模型对应的算法或者方程求出的解就是预测或者分类出来的结果。
- 样本数据:
- 模型的训练:将样本数据带入到模型中对其进行训练(给方程进行求解),训练好之后,则方程具有唯一解或者最优解。有解之后则模型可以实现分类或者预测的功能。
- 构成:
- 特征数据:自变量(时间)
- 标签/目标数据:因变量(售价)
- 模型的分类:
- 有监督学习:
- 如果模型需要的样本数据必须包含特征数据和标签数据,则该模型为监督学习分类
- 无监督学习:
- 模型需要的样本数据只需要特征数据即可,目标数据有或者无都可以。
- 有监督学习:
- 模型
2.数据集
- 数据集的载体:
- 通常情况下历史数据都不会存在数据库中,而是存储在文件中(csv文件)
- 数据库存储数据存在的问题:
- 性能瓶颈:数据量级大的数据很难存储和进行搞笑的读写。
- 数据存储格式不符合机器学习要求的数据格式。
- 样本数据的获取途径:
- kaggle:数据竞赛平台。
- UCI数据集:是一个常用的机器学习标准测试数据集,是由加州大学欧文分校。*
- sklearn:python封装的机器学习模块。*
- 为什么需要机器学习
- 解放生产力:比如智能客服
- 解决专业问题:比如医疗领域,可以辅助医生进行相关症状的判断。
- 提供社会便利:杭州城市大脑,无人超市等等。
- 机器学习的价值体现:
- 各个领域的运营策略
- 替换手动步骤提高生产力