基于Python的机器学习知识归纳
orsonV
这个作者很懒,什么都没留下…
展开
-
【机器学习】ROC曲线
1.概述 AUC(Area Under roc Curve)是一种用来度量分类模型好坏的一个标准。这样的标准其实有很多,例如:大约10年前在machine learning文献中一统天下的标准:分类精度;在信息检索(IR)领域中常用的recall和precision,等等。其实,度量反应了人们对”好”的分类结果的追求,同一时期的不同的度量反映了人们对什么是”好”这个最根本问题的不同认识,而不...转载 2017-10-07 18:13:29 · 3397 阅读 · 0 评论 -
【机器学习】各种树算法的总结
这个总结主要为XGboost而写,而Boosting方法是集成学习的一种,所以在最开始有必要记录一下集成学习的概念。集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。目前的集成学习方法大致分为两大类:即个体学习器之间存在强依赖关系、必须串行生成的序列化方法,代表就是Boosting;以及个体学习器间不存在强依赖关系、可同时生成的并行化方法,代表是Bagging和...原创 2018-07-31 10:55:05 · 1276 阅读 · 0 评论 -
【机器学习】集成学习笔记
1. 基础知识概念:集成学习(ensemble learning)先产生出一组“个体学习器”,再用某种策略将它们结合起来。这些个体学习器可以类型相同,也可以不同。 集成学习通过将多个学习器进行集合,常可获得比单一学习器显著优越的泛化性能,但有一个小条件——这些个体学习器至少不差于弱学习器(泛化性能略优于50%的学习器)。这次融合我的XGBOOST和Andy的GBDT结果集得到了非常好的提升效...原创 2018-08-08 15:48:46 · 501 阅读 · 0 评论 -
【机器学习】天池O2O优惠券使用预测_系统性总结与心得
Preface:上半年参加天池的O2O优惠券预测赛排名第二,同时参加了学校数据仓库老师的课程改革建设团队,于是把参赛经验总结成文,准备分享给该课程的学弟学妹。现在我把总结的参赛教程文章也发到CSDN上来,供参赛的同学们参考,也希望能得到更多的指教。1 赛题背景1.1 题目介绍比赛背景:赛题的发布网址如下:https://tianchi.aliyun.com/competition...原创 2018-10-29 17:24:35 · 5410 阅读 · 4 评论 -
【机器学习】apply的使用总结
apply可以用在dataframe的某一列上,例如imdb['runtime'] = imdb.runtime.apply(lambda x:x[0:-6]),此时apply()内不需要加axis=1 apply可以用在整个dataframe上,此时x是一整行,而可以用['xxx']的方法调用行的某一列,但注意必须给出参数axis=1...原创 2018-04-25 10:30:36 · 1032 阅读 · 0 评论 -
【机器学习】Pandas Merge后出现大量NaN值
今天在merge天池的数据表时,用coupon_id作为键值却发现合并后产生不应该有的NA值。原因是:待merge的两个表中的coupon_id,dtype类型不同,造成python以为两个表没有共同键值,于是产生大量NaN。...原创 2017-12-12 17:00:05 · 10298 阅读 · 1 评论 -
【机器学习】Pandas drop_duplicates的inplace属性
1.off = off.drop_duplicates()2.off.drop_duplicates(inplace=True)1和2才是等价的,如果单独写一个off.drop_duplicates(),没有inplace属性,那么并不会更改内存中的off数据集。表现出来就好像drop_duplicates()方法没有用。一个坑,特此记下。...原创 2017-12-08 22:37:20 · 1721 阅读 · 0 评论