集成学习打卡-day1
机器学习
机器学习定义与分类
完整机器学习项目常用流程
##机器学习定义与分类
机器学习-简单的说,机器学习就是从一堆看似没有关系没有规律的数据中发现规律或者数据的联系,然后训练出相关模型,将建立起的模型用作数据的分析和预测。以高考为例,高考的题目在上考场前我们未必做过,但在高中三年我们做过很多很多题目,懂解题方法,因此考场上面对陌生问题也可以算出答案。机器学习的思路也类似:我们能不能利用一些训练数据(已经做过的题),使机器能够利用它们(解题方法)分析未知数据(高考的题目)
机器学习分类-有监督学习和无监督学习
有监督学习:给定某些特征去估计因变量,即因变量存在的时候,我们称这个机器学习任务为有监督学习。如:银行根据一个人的收入、财产、学历等信息去衡量一个人的信誉等级决定是否放款。
无监督学习:给定某些特征但不给定因变量,建模的目的是学习数据本身的结构和关系。如:我们给定某电商用户的基本信息和消费记录,通过观察数据中的哪些类型的用户彼此间的行为和属性类似,形成一个客群。注意,我们本身并不知道哪个用户属于哪个客群,即没有给定因变量
无监督与有监督的区别
在分类任务中,,有监督学习(supervised learning)的训练数据常是有标签。而无监督学习(unsupervised learning是无标签的,也即聚类(clustering)。
完整机器学习项目常用流程:
1.明确项目任务:回归/分类
2. 收集数据集并选择合适的特征。
3. 选择度量模型性能的指标。
4. 选择具体的模型并进行训练以优化模型。
5. 评估模型的性能并调参。