算法
文章平均质量分 72
coder_oyang
墓志铭
展开
-
推荐-线下AUC提升,线上CTR无提升
线下AUC提升,线上AB测试无提升1.判断线上线下特征提取是否一致?2.数据是否泄露,简言之,倒因为果,某特征跟目标有很高相关性?3.是否需要一味地添加特征?原创 2020-09-07 09:48:52 · 743 阅读 · 0 评论 -
推荐系统及其embedding
https://zhuanlan.zhihu.com/p/104182282原创 2020-06-03 13:56:12 · 217 阅读 · 0 评论 -
概率图模型 -- 隐马尔可夫模型、条件随机场
本文从建模角度出发,通过概率图模型分析隐马尔可夫,条件随机场,文章重点在模型建立理论基础原创 2018-07-12 21:05:49 · 4914 阅读 · 0 评论 -
智能交互框架总结
深度学习固然热络,但在垂直领域,我还是推崇规则匹配,垂直领域的正常问答中,不会超过10000条语句,那么规则其实能很好cover,准确率甚至能高达90%,累积了大数据,深度学习在这个时候就能很好提升模型精度,下面是对智能交互的总结。 智能交互总体框架下面着重总结下自然语言理解(NLU)部分:1. NLU分原创 2018-02-03 16:06:47 · 1201 阅读 · 0 评论 -
一些概念总结
特征选择 基本思路是根据某个评价指标独立的对原始特征项(词项)进行评分排序,从中选择得分最高的一些特征项,过滤掉其余的特征项。常用的评价有文档频率、互信息、信息增益、χ²统计量等。手段包括:正则化(L1,L2)方法,回归模型(根据各属性权重)、决策树(根据距离跟结点距离)、随机森林(平均不纯度减少,平均精确度减少)分层抽样 机器学习模型训练过程中,通过分层抽样将样本集划分为训练集、测...原创 2018-01-22 15:29:04 · 305 阅读 · 0 评论 -
用于时序数列预测的 Elman神经网络
时序数列预测算法 ARIMA 以及 ELman Neural Network , tensorflow TFTS原创 2016-09-09 16:15:57 · 13583 阅读 · 3 评论 -
数据分析领域中最为人称道的七种降维方法
七种降维方法原创 2017-01-19 16:44:06 · 1171 阅读 · 0 评论 -
美团2016面试总结
面试总结原创 2015-09-27 14:49:28 · 1389 阅读 · 4 评论 -
最小生成树-MST算法详解及代码实现
最小生成树,贪心算法,Kruskal,Prim算法原创 2015-09-03 16:34:05 · 21124 阅读 · 1 评论 -
所有的红包中出现次数大于红包总数的二分之一-笔试系列二
题目:过年了,小白抢到了很多红包,要求找出所有的红包中出现次数大于红包总数二分之一的金额。写出算法与代码Tips:hashmap原创 2015-09-08 18:04:12 · 727 阅读 · 1 评论 -
新发现--台湾周志成 线代启示录
台湾周志成个人网站 线代启示录,周 号称 台湾线代之神原创 2015-07-31 09:31:18 · 9380 阅读 · 0 评论 -
马尔可夫链及吉布斯抽样 入门详解(Markov Chain Monte Carlo and Gibbs Sampling)
最近总结了下自己的笔记,发现原来自己还有这个东西,所以再次回顾了下,并简单做以下梳理,文章来自LDA-math-MCMC 和Gibbs Sampling翻译 2015-07-28 15:45:28 · 9929 阅读 · 2 评论 -
5亿整数的大文件,怎么排?
本文转载自:5亿整数的大文件,怎么排?问题给你1个文件bigdata,大小4663M,5亿个数,文件中的数据随机,如下一行一个整数:61963023557681612158020393452095006174677379343122016371712330287901712966901...7005375现在要对这个文件进行排序,怎么搞?转载 2015-06-20 09:08:53 · 648 阅读 · 0 评论