- 博客(5)
- 收藏
- 关注
原创 常用算法优缺点
朴素贝叶斯 常用于文本分类 对缺失值不敏感、能处理多分类、算法简单 需要计算先验概率、先验有一定的错误率;模型假设是各特征相互独立,所以面对相关性较强的特征可能分类效果不好 本质是根据先验概率和数据来估计后验分布,也有一定的错误率 KNN 简单有效 类别重叠时,效果比别的分类器好一些 可用于非线性分类; 对数据没有假设,准确度高,对异常值不敏感; 缺点 计算量大; 样本...
2018-07-28 21:34:37 545 1
原创 决策树选择
信息增益:偏向取值较多的特征 信息增益比:偏向取值较少的特征 基尼:被选中的概率乘以被分错的概率 信息增益准则对那些属性的取值比较多的属性有所偏好,也就是说,采用信息增益作为判定方法,会倾向于去选择属性取值比较多的属性。那么,选择取值多的属性为什么就不好了呢?举个比较极端的例子,如果将身份证号作为一个属性,那么,其实每个人的身份证号都是不相同的,也就是说,有多少个人,就有多少种取值,它的取值...
2018-07-24 11:30:13 240
原创 面试 线性分类器
线性分类器:模型是参数的线性函数,分类平面是(超)平面; 非线性分类器:模型分界面可以是曲面或者超平面的组合。 典型的线性分类器有感知机,逻辑斯特回归,SVM(线性核); 典型的非线性分类器有朴素贝叶斯,kNN,决策树,SVM(非线性核)...
2018-07-24 10:40:41 138
原创 面试 范数 稀疏性
范数稀疏性 L1范数使解稀疏 当p=1时,范数的几何模型是菱状,在一定条件下会导致一个稀疏解,即相交于坐标轴上; 当p>1时,Lp球是外凸的,当逐渐膨胀时与直线的切点一定不位于坐标轴上,即此时的解是不稀疏的。...
2018-07-24 10:38:50 532
原创 面试 分类判别函数
TPR=TP/TP+FN FPR=FP/FP+TN ROC 纵坐标为FPR 横坐标为TPR 准确率 =(TP+TN)/ALL 精确率 P=TP/TP+FP 召回率 R=TP/TP+FN 即TPR AUC为ROC曲线下面积 越大越好 样本不均匀时 用PR 召回率作横坐标,精确率作纵坐标 曲线越偏右上越好 ...
2018-07-24 10:31:54 138
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人