机器学习
文章平均质量分 75
大魁
关注推荐系统, 计算广告, 机器学习
展开
-
Logistic Regression及其参数估计
原文链接: http://hi.baidu.com/justin_jia/item/abbc25d478db76e6785daa72在统计分析还有机器学习中,logistic regression都一种比较基本的工具。说基本也是相对的,在专业领域里很基础,但是logistic regression在通常的课程中还是不如linear regression更加基础一些。这也是为什么转载 2013-08-21 06:50:42 · 5240 阅读 · 0 评论 -
最大似然估计和最大后验概率
极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为,参数是客观存在的,只是未知而矣。因此,频率派最关心极大似然函数,只要参数求出来了,给定自变量X,Y也就固定了,极大似然估计如下所示:D表示训练数据集,是模型参数相反的,贝叶斯派认为参数也是随机的,和一般随机变量没有本质区别,正是因为参数不能固定,当给定一个输入x后,我们不能用一个确定的y表示输出结转载 2013-08-21 07:23:51 · 15867 阅读 · 2 评论 -
Foursquare: 如何构建我们的模型训练引擎(Model Training Engine)
英文原文地址:How we built our Model Training Engine翻译:大魁,时间短暂,翻译的比较粗糙在Foursquare,我们面临大规模的机器学习任务。例如,要从低质量的GPS信号中确认用户签到的场所;个性化推荐;根据用户或者他们的好友去过的地方来推送打折和促销信息。几乎app的每一个功能都或多或少用到了机器学习。所有这些服务都具有海量的规模:每天一翻译 2013-12-15 17:05:04 · 3110 阅读 · 0 评论 -
CIKM2014参会印象
陆奇information, service, interactionlinked web graph, real social graph, precise spatial graph, realtime temporal data(sns)natural UI: in-context, properchallenges: nlp, intent, user model, knowled原创 2014-11-16 15:51:45 · 3188 阅读 · 1 评论 -
聚类算法总结
最近要在spark上做一个聚类的项目,数据规模和类的数目都比较大。因此总结了一下常见的聚类算法。最终选择mini-batch kmeans,并使用kmeans++来初始化类中心。这样算法的执行速度比较快,而且效果相对靠谱。原创 2014-09-12 22:27:26 · 10908 阅读 · 0 评论 -
KDD2012参会小结
KDD的全称为ACM SIGKDD conference on Knowledge Discovery and Data Mining,今年的会期是8.12-8.16,在北京的国家会议中心。这是KDD第一次在亚洲举办,机会难得;加之我们组幸运的被邀请在KDDCUP的workshop上做一个报告,我们5位同学就欢快地从上海赶赴北京学习、腐败了。今年参会人数有1000多人,虽然不能跟SIG原创 2012-08-19 12:27:07 · 9330 阅读 · 6 评论