1、什么是机器学习?
机器学习 就是把无序的数据转换成有用的信息。
2、特征或者属性通常是训练样本集的列,它们是独立测量得到的结果,多个特征联系在一起共同组成一个训练样本
3、机器学习的主要任务:
分类、
回归,分类以及回归属于监督学习。
*无监督学习——聚类
4、选择算法:
*使用机器学习算法的目的,想要完成何种任务;
--预测目标变量的值:监督学习
--目标变量类型:离散型:如,是/否、1/2/3或者红/黄/黑。选择分类算法;
连续性:如,0.0~100.00、-999~999等。选择回归算法。
--无监督学习:聚类(将数据划分为离散的组)、密度估计算法(估计数据与每个分组的相似程度)
*需要分析或者收集什么样的数据;
--特征值是离散还是连续变量;
--特征值中是否存在缺失值;
--数据是否存在异常值;
--某个特征的频率如何。
5、开发机器学习应用程序的步骤
*收集数据:爬虫、RSS反馈、API中得到信息、设备发送;
*准备输入数据:为机器学习算法准备特定的数据格式;
*分析输入数据:人工分析、图形展示——确保数据集中没有垃圾数据;
*训练算法:主要是针对监督学习
--无监督学习不存在目标变量值,故而也不需要训练算法;
*测试算法:使用训练算法中得到的只是信息测试算法。
--监督学习:必须已知用于评估算法的目标变量值;
--无监督学习:使用其他的手段来验证;
6、用于机器学习的Python类库:SciPy、NumPy(设计较多的线性代数的知识)
*NumPy中用“.I”求矩阵的逆运算。