算法
路越
这个作者很懒,什么都没留下…
展开
-
推荐系统系列:商品关联分析
商品关联分析关联 relevance: 主要用在互联网的内容和文档上,比如搜索引擎算法文档中之间的关联性。association: 用在实际的事物之上,比如电子商务网站上的商品之间的关联度。支持度(support):数据集中包含某几个特定项的概率。 比如在1000次的商品交易中同时出现了啤酒和尿布的次数是50次,那么此关联的支持度为5%。置信度(Confidence):在数据集中已经出现A时,B原创 2016-07-15 15:47:45 · 14157 阅读 · 0 评论 -
回归预测评估指标
回归预测评估指标标注说明ff表示预测值,yy表示实际值评价指标MAE(Mean Absolute Error) 平均绝对误差 MAE=1n∑i=1n|fi−yi|MAE = \frac{1}{n}\sum_{i=1}^n|f_i-y_i|MSE(Mean Square Error) 平均平方差/均方误差是回归任务最常用的性能度量。 MSE=1n∑i=1n(fi−yi)2MSE=\frac{1原创 2017-08-26 18:04:16 · 30654 阅读 · 2 评论 -
准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-Measure
基础知识,一定要记清楚。 参考https://blog.argcv.com/articles/1036.c原创 2017-08-16 15:34:08 · 6209 阅读 · 0 评论 -
常用的评测指标
NDCG(Normalized Discounted Cumulative Gain): 维基百科写的很清楚。 注意理解这四个词。 Discounted:顺序影响指标。 Normalized:消除文档个数对指标的影响。 Cumulative:累积。原创 2017-08-16 16:16:41 · 379 阅读 · 0 评论 -
Holt-Winters-季节性预测算法
参考Holt-Winters seasonal methodHolt Winter 指数平滑模型原创 2017-08-17 15:57:11 · 14999 阅读 · 0 评论 -
XGBoost探索
XGBoost可以用来分类,回归,排序。 支持多种语言:C++, Python, R, Java, Scala, Julia。安装参考https://xgboost.readthedocs.io/en/latest/build.html。 注意clone时加--recursive参数。参考官方文档原创 2017-08-17 15:06:46 · 224 阅读 · 0 评论 -
有趣的问题
将一段英文的空格全部去掉,那么该如何分词?原创 2017-08-08 14:21:14 · 207 阅读 · 0 评论 -
Log-Likelihood Ratio
在上一家公司用LLR做过相似商品计算,最近在找工作,在这里复习一下. LLR方法的核心是分析事件的计数,特别是事件同事发生的计数. 我们需要的计数一般包括: 1. 两个事件同时发生的次数(k_11) 2. 一个事件发生而另一个事件没有发生的次数(k_12,k_21) 3. 两个事件都没有发生(k_22) EventA Everything but A Event B A原创 2017-08-08 14:19:48 · 9136 阅读 · 0 评论 -
SMOTE
SMOTE是处理样本类别分布不均衡的数据集的一种算法,它的全称是Synthetic Minority Over-sampling TEchnique。顾名思义就是合成少数类别样本的一种算法。它的灵感来自于做数字识别是对图片进行翻转等操作生成新样本的方法。 下面是它的伪代码: ...原创 2018-08-11 15:24:53 · 4019 阅读 · 0 评论