- 博客(7)
- 收藏
- 关注
原创 信息检索的评价指标介绍——MAP,NDCG
MAP MAP: Mean Average Precision,表示信息检索系统(搜索引擎)的平均正确率。其公式如下: MAP=∑Qq=1AveP(q)QMAP = \frac {\sum_{q=1}^Q AveP(q)}{Q} 其中,QQ表示query的数量,AvePAveP表示每条query的平均准确率,其计算公式如下: AveP=∑nk=1(P(k)∗rel(k))总相关文档数量Av
2018-01-23 22:43:37 1651 1
转载 [转]理解LSTM网络
在简述上看到一篇介绍LSTM比较好的文章,转载过来进行收藏。Recurrent Neural Networks人类并不是每时每刻都从一片空白的大脑开始他们的思考。在你阅读这篇文章时候,你都是基于自己已经拥有的对先前所见词的理解来推断当前词的真实含义。我们不会将所有的东西都全部丢弃,然后用空白的大脑进行思考。我们的思想拥有持久性。传统的神经网络并不能做到这点,看起来也像是一种巨大的弊端。例如,假设你希
2017-12-14 21:03:19 430
原创 Tree ensemble算法中feature importance计算方法
基于Tree的集成机器学习算法已经成为机器学习领域的主流算法。我们在做任何一个机器学习任务时,大部分的精力都会放在特征工程上(Feature Engineering)。我们通常会采用前向或后向策略,根据模型的结果进行特征选择。然而,在使用Tree ensemble算法时,有一个更有用的模型属性(feature importance),我们经常用它来进行特征选择。所以,有必要介绍一下feature i
2017-12-08 19:33:25 7424 2
原创 LightGBM的并行优化
上一篇文章介绍了LightGBM算法的特点,总结起来LightGBM采用Histogram算法进行特征选择以及采用Leaf-wise的决策树生长策略,使其在一批以树模型为基模型的boosting算法中脱颖而出。在时间和空间上都更胜一筹,准确率也比其他模型表现得更好。这些模型在处理一般规模的数据时,单机即可以解决,然而当数据规模更大时,即需要进行分布式计算,分担每台机器(worker)的压力。这篇文章
2017-12-06 23:15:04 6471 3
原创 LightGBM算法的特别之处
自从微软推出了LightGBM,其在工业界表现的越来越好,很多比赛的Top选手也掏出LightGBM上分。所以,本文介绍下LightGBM的特别之处。 LightGBM算法在模型的训练速度和内存方面都有相应的优化。基于树模型的boosting算法,很多算法比如(xgboost 的默认设置)都是用预排序(pre-sorting)算法进行特征的选择和分裂。首先,对所有特征按数值进行预排序。 其次,在每次
2017-12-06 18:23:23 12606
原创 TensorFlow 多分类标签转换成One-hot
TensorFlow 多分类标签转换成One-hot在处理多分类问题时,将多分类标签转成One-hot编码是一种很常见的手段,以下即为Tensorflow将标签转成One-hot的tensor。以Mnist为例,如果标签为“3”,则One-hot编码为[0,0,0,1,0,0,0,0,0,0].import tensorflow as tf # version : 1.4NUM_CLASSES =
2017-11-15 21:29:16 11588 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人