- 博客(3)
- 收藏
- 关注
原创 一文读懂逻辑回归、详细回归
一、线性回归 1.概念 对于一组特征,使用线性方程来进行拟合,对结果进行预测,公式如下: 2.代价函数 线性回归选取的损失函数是均方误差,均方误差表示所有样本到该预测函数的欧式距离最小,代价函数如下: 对每一个θ进行求导,便可以求取θ的值: 更新: ,其中α为学习率 3.如何选取α,如何停止更新权值 &nbs
2020-06-30 07:05:30 301
原创 一文看懂机器学习-样本不均衡问题
这里简单以二分类问题说明,如果正负样本比例为1:100,这样的比例是必须得考虑的问题,也得解决样本不均匀的问题,否则训练出来的模型会具有偏向性。例如:样本中有980个正样本,20个负样本,这样模型只需要输出结果为正样本,就可以达到99.8%的正确率,但是这样的模型是没有意义的,不具备泛化性。 常用的处理方式: 欠抽样:将样本较多的一类,删除样本,其实二类样本数量基本保证一致,无明显差异,但是这样会造成样本的信息损失,影响模型的性能; 过抽样:增加扩展样本较少的一类,两类样本数量基本达到一致,但是需要重新收
2020-06-29 09:43:28 764
原创 机器学习--特征工程
一、为什么要做特征工程? 在工业也流行着一句话:“数据和特征决定了机器学习的上限,而模型和算法知识逼近这个上限的方式”,由此可见,拥有适用于当前问题的数据和特征是至关重要的,因此做特征工程目的就是拥有更加适合当前问题的数据和特征。 二、数据预处理 2.1 缺失错误值处理 错误值处理方式:前期收集数据,数据源来源不同,可能造成数据格式不统一,需要统一格式;对于数值型的数据,某个样本出现字符型数据,可以进行人工查验或删除该数据。 缺失值处理方式:删除所在的行或列;取中位数、众数、均值;使用算法预测。 2.2 数
2020-06-27 16:41:21 372
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人