- 博客(5)
- 资源 (1)
- 收藏
- 关注
转载 Isolation Forest算法原理
本文只介绍原论文中的 Isolation Forest 孤立点检测算法的原理,实际的代码实现详解请参照我的另一篇博客:Isolation Forest算法实现详解。 或者读者可以到我的GitHub上去下载完整的项目源码以及测试代码(源代码程序是基于maven构建): https://github.com/JeemyJohn/AnomalyDetection。前言 随着机器学习
2017-11-28 21:35:58 1958
转载 python使用pandas处理大数据节省内存技巧
一般来说,用pandas处理小于100兆的数据,性能不是问题。当用pandas来处理100兆至几个G的数据时,将会比较耗时,同时会导致程序因内存不足而运行失败。 当然,像Spark这类的工具能够胜任处理100G至几个T的大数据集,但要想充分发挥这些工具的优势,通常需要比较贵的硬件设备。而且,这些工具不像pandas那样具有丰富的进行高质量数据清洗、探索和分析的特性。对于中等规模的数据,我们的愿望是尽
2017-11-10 12:49:20 38335 9
原创 LightGBM参数介绍
Xgboost和LightGBM部分参数对照:Xgboots LightGbm booster(default=gbtree)boosting(default=gbdt)eta(default=0.3)learning_rate(default=0.1)max_depth(default=6)
2017-11-09 21:53:13 61529 1
转载 LeetCode-25. Reverse Nodes in k-Group
Given a linked list, reverse the nodes of a linked list k at a time and return its modified list.If the number of nodes is not a multiple of k then left-out nodes in the end should remain as it is.You
2017-11-07 21:56:55 951
转载 Box-Cox变换
Box-Cox变换 1 Box-Cox变换 在回归模型号中,Box-Cox变换是对因变量Y作如下变换: (1.1) 这里是一个待定变换参数。对不同的,所做的变换自然就不同,所以是一个变换族。它包括了对数变换(=0),平方根变换()和倒数变换(=-1)等常用变换。 图1. 变换前变量的分布 图2.变换后变量分布 对因变量的n个观测值,应用上
2017-11-06 20:31:44 13320
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人