一、机器学习算法分析
(一)、算法类型的选择:
(1)、分为分类算法和回归算法:
在机器学习过程中对于相关算法的选择也是至关重要的,一般算法的选择往往与数据类型息息相关。
1、离散数据类型:
离散数据类型又称计数数据类型。离散数据中的数据之间是不连续的,具有明确的要素边界。例如,道路有宽度和长度,在地图上表示为线。地籍图可以显示出各宗地之间的边界。地图上各要素的特征(如所有者名称、宗地编号和有效面积)都存在着明显的不同。
2、连续数据类型:在一定区间内可以任意取值的数据叫连续数据,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。例如,生产零件的规格尺寸和人体测量的身高和体重和胸围等为连续数据,其数值只能用测量或计量的方法获得。
上一篇博文中对机器学习算法有了一个大概的分类,分为两类:
分类型估计器:
1、贝叶斯
2、k近邻算法
3、逻辑回归
4、决策树与随机森林
回归型估计器:
1、岭回归
2、线性回归
结合数据类型我们初步判断使用哪种分类算法,如果目标值是离散的,我们使用分类算法,通俗一点就是我们有明确的分类目标,如数的品种,猫狗二分类等;
如果目标值是连续的,我们使用回归算法,归回算法没有一个明确的目标,智能通过模型来进行预测下一阶段的内容,并且无限逼近正确值。如预测下个月的房价、利息等。
(2)、分为监督学习和无监督学习:
在分类以及回归算法的基础上,机器学习又有监督学习和无监督学习:
监督学习:
分类型估计器:
1、贝叶斯
2、k近邻算法
3、逻辑回归
4、决策树与随机森林
回归型估计器:
1、岭回归
2、线性回归
无监督学习:
聚类算法
以上种分类方式也是依据数据而定的,如果在样本中有目标值,则就是监督学习,如果没有目标值的,则是无监督学习。通常来讲,监督学习往往是起到预测的作用的。
(2)、机器学习建模过程:
1、明确目标,对问题进行初步的分析
2、得到数据集后就是先对数据集进行特征工程的处理,例如进行数据的整合、对缺失值异常值等进行处理,如果特征特别庞大的还要进行数据降维。
3、对数据处理结束后就是要选择合适的算法进行建模
4、对模型进行评估,对效果进行判定,如果模型没有达到预期则返回步骤二继续进行