![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
SM-Alan
初入职场的渣渣一枚
展开
-
ROC和AUC简介
背景由于工作原因,遇到了许多二分类的问题,例如,通过一些算法进行模型训练,我们能得到某个用户u对新闻i的评分预测值v(通常介于0和1之间),v大于某个预测阈值就 给 用户推荐,否则就不推荐,这是典型的二分类问题,那么我如何评价这个模型呢?我怎么知道这个模型预估的好不好呢?经过mentor介绍,了解到ROC和AUC,下面详细介绍这两个衡量方法。ROC受试者工作特征曲线 (receiv原创 2014-12-17 23:06:47 · 1691 阅读 · 0 评论 -
参数线性回归和梯度下降
本文大量摘自Rachel-Zhang的CSDN博客,侵联删。背景作为一枚本科木有接触过机器学习而第一份工作就是机器学习相关的本科渣渣。目前硬着头皮边学边用一些机器学习相关的基础内容,写到博客里mark一下,会大量摘抄各位神犇的博客,如有侵权,请联系我,我会及时删除。单参数线性回归参数线性回归是给出一系列点假设拟合直线为h(x)=theta0+theta1*x, 记Cost Func原创 2014-12-21 22:20:30 · 779 阅读 · 0 评论 -
LR逻辑回归Logistic Regression
背景在工作中,需要过滤掉很多色情和赌博类的item,我mentor刚开始说用多分类的分类器,结果被浪浪鄙视了。后来用了LR,效果还不错。之前不知道LR,写个博客mark一下吧。LR逻辑回归 Logistic Regression背景中提到的色情和赌博类的item,其实拆开来看是典型的二分类问题,一个item进来后,先看是不是色情类的,再看是不是赌博类的,每一次分类其实就是一个二分类问题原创 2015-01-11 22:47:00 · 764 阅读 · 0 评论 -
linux删除大文件的前n行
linux删除大文件的前n行在数据挖掘中我们经常会增量更新训练日志,需要删除前n行的过期数据,直接用sed命令比较慢,谷歌了一下,发现有个奇技淫巧: tail -n +3 old_file > new_file mv new_file old_file 这样就删除了前2行,速度要比sed命令快原创 2015-03-02 20:11:56 · 21951 阅读 · 0 评论 -
K-means聚类算法
K-means聚类算法背景照例每周一个机器学习的经典算法,聚类是机器学习中一种重要的算法,特别是在推荐中,用户喜欢某一类item,我们常常需要把这些item给聚类到一起。一个类中的item肯定是有相似特征的,比如上一回朴素贝叶斯分类器中,我们把小明喜欢的妹子给看成一大类,那么从历史数据中可以看出来,小明喜欢胸大的妹子,胸大就是这些妹子的共同特征。相似item那么现在问题来了,如何才能算是相似的ite原创 2015-03-15 22:44:01 · 600 阅读 · 0 评论 -
朴素贝叶斯分类器
朴素贝叶斯分类器背景算是机器学习比较经典的算法中之一了,刚开始接触机器学习的时候就有耳闻,当时看了看,看不懂,现在回过头来渐入佳境,写个博客mark一下。贝叶斯定理 贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1763 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。 按照乘法法则:P(A∩B)=P(A)原创 2015-03-07 09:27:30 · 867 阅读 · 2 评论