![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 91
笛在月明
我们采集的只是石头,却必须时刻展望未来的大教堂。
展开
-
使用随机森林计算特征重要度
随机森林包含很多决策树,决策树中的每一个节点是某一个特征的条件。这些条件用来将数据集分成两部分,使得每一部分的响应值归为同一个集合。最优条件的选择依据是不纯度。不纯度在分类中通常为Gini不纯度或信息增益/信息熵,对于回归问题来说是方差。 下面是两种计算特征重要度的方法: 1 基于sklearn的实现from sklearn.datasets import load_bostonfrom sk翻译 2017-12-20 20:47:21 · 23061 阅读 · 5 评论 -
Datacastle算法竞赛-精品旅行服务成单预测-AUC:0.94+解决方案
Datacastle在前一段时间发布了一个算法竞赛-精品旅行服务成单预测。当时空闲时间比较多就报名参加了,后面为了赶论文进度没有继续做下去,最后的一次提交结果是0.94+的auc。共计提取了76个特征,分别使用了基于权重和stacking的模型融合方法,下面是对特征和模型的一些整理。 一、特征 1.基本信息:如用户性别,省份,年龄等。 2.历史订购信息:之前是否购买过精品,订购每种类型订单的...原创 2018-02-13 19:35:13 · 1611 阅读 · 11 评论 -
机器学习中常见的问题整理(二)
1.KNN算法有哪些缺点? (1)计算代价很大 ①由于KNN必须对分类数据计算与每一个训练数据的距离,非常耗时; ②KNN算法必须保存全部的数据集,如果训练数据集很大,那么就需要耗费大量的存储空间; (2)无法处理categorical变量 (3)对变量的缩放非常敏感 (4)难以处理不同单位和不同数值范围的变量 (5)对高维数据表现不佳 (6)可解释性较差,无法给出决策树那样...原创 2018-04-10 21:23:20 · 1402 阅读 · 4 评论 -
机器学习中常见的问题整理(一)
本文整理了一些常见的机器学习中可能会遇到的问题,这些问题包括基本概念的理解,各种场景下模型的选择等问题,以及一些常见概念背后的原因,结果和改进思路等。1.对于xgboost,还有必要做很多特征工程吗?特征工程是个很广的概念,包括特征筛选、特征变换、特征合成、特征提取等等。对于xgboost,它能够很好地做到特征选择,所以这一点不用我们去操心太多。至于特征变换(离散化、归一化、标准化...原创 2018-04-04 17:55:08 · 3956 阅读 · 0 评论 -
机器学习中常见的问题整理(三)
本文继续整理各个平台上最热门的机器学习问题及参考解答,如有问题欢迎补充~ 1. 激活函数ReLU相比Sigmoid的优势有哪些? (1)Relu计算量小; (2)Relu没有饱和区和梯度消失; (3)用Relu去估计非线型函数时收敛更快。AlexNet论文里说大概比sigmoid快6倍。 最后,Relu有个缺点是输出为0后,梯度没法反向传递,这个Relu就死掉了。。 2. dropou...原创 2018-04-23 22:47:12 · 804 阅读 · 0 评论 -
机器学习常见的问题总结(四)
1.二阶收敛为什么比一阶收敛更快? 一阶收敛是以1/n的速度收敛,二阶收敛是以1/(n^2)的速度收敛,所以速度比较快。 2.拟牛顿法是如何近似海塞矩阵的?3.为什么BFGS效果要好于DFP? BFGS优于DFP的原因在于,BFGS有自校正的性质(self-correcting property)。通俗来说,如果某一步BFGS对Hessian阵的估计偏了,导致优化变慢,那么BFGS会在较...原创 2018-05-17 15:09:39 · 1088 阅读 · 0 评论 -
使用tensorflow seq2seq进行时间序列预测
时间序列预测可以根据短期预测,长期预测,以及具体场景选用不同的方法,如ARMA、ARIMA、神经网络预测、SVM预测、灰色预测、模糊预测、组合预测法等等。所谓没有最好的模型,只有最适合的模型。至于哪一种模型能针对特定预测问题达到最高的精度,需要通过实验来证明。本文通过生成的随机数利用tensorflow的seq2seq模型进行单变量时间序列预测实验,目的是理解seq2seq的模型基础架构以及验证模...原创 2018-05-11 16:56:52 · 16441 阅读 · 12 评论 -
数据科学系列(一)Kaggle如何入门?
学习数据科学的最好方法是在练习中学。如果可以回到过去,我想告诉三年前的自己:去Kaggle注册一个账号,并且开启你的比赛之旅。尽管 Kaggle 和经典数据科学之间存在差异,但 Kaggle 仍然是一种很好的入门工具。作为一个流行的数据科学竞赛平台,Kaggle提供了许多企业中的实际问题和丰富的数据集供我们练习和探索。2017年3月谷歌收购了Kaggle。斯坦福大学人工智能实验室与视觉实验室负责...原创 2018-12-20 22:19:24 · 602 阅读 · 0 评论