机器学习
文章平均质量分 85
tandembike
这个作者很懒,什么都没留下…
展开
-
决策树的对比
决策树的演化:ID3->C4.5->CART下面用图表,直观地对比下这三种决策树1 如何选择要划分的特征1.1 我们的目的首先要了解的是,我们要做的事,是尽快的把如何衡量熵和基尼系统ID3在判断先对哪个特征进行划分时,是用的信息增益进行判断但是信息增益的缺点在于于是对信息增益进行了改进CART在C4.5的基础上,又进行了改进,使用的是基尼系数对缺失值的处理输入自变量目标因变量剪枝预剪枝和后剪枝不同的后剪枝方式https://blog.csdn.net/wei原创 2021-06-01 22:09:09 · 463 阅读 · 0 评论 -
逻辑回归原理
看了一个很不错的关于逻辑回归的视频,感觉很不错,整理一下https://www.bilibili.com/video/BV1As411j7zw逻辑回归,虽然名字里带有回归二字,其实是一个分类模型。为什么叫回归呢,我猜可能是逻辑回归也是在线性回归的基础上推导而来的假设我们有如下的样本,其中圆形代表的是+1,三角形代表的是-1.对于二分类问题而言,我们就是要找到一条线,把圆形和三角形分开。现在中间的那条线就是我们想要的线,它的函数是z=WX=w0+w1x1+w2x2线性回归的z的取值,是整个实数集,而原创 2021-05-30 23:42:46 · 208 阅读 · 2 评论 -
样本不平衡的处理
图片的样本不平衡可以通过裁剪、翻转等进行数据增强,由于没有做过图片的样本不平衡,所以这里先不说NLP的样本不平衡最近在进行文本分类时,发现存在样本不平衡的情况。于是我采用了网上说的几种方法,逐一进行数据增强,发现起到了效果。这些方法包括:随机近义词替换(基于已有的词典)随机近义词替换(基于训练好的word2vec模型)随机同音词替换(基于已有的词典)随机删除字词随机调换字词间的顺序反向翻译(先将中文翻译成英文,再通过翻译好的英文再翻译回中文)...原创 2021-05-27 20:29:41 · 385 阅读 · 0 评论