- 博客(17)
- 资源 (1)
- 收藏
- 关注
原创 Task2 GBDT算法梳理
【Task2 GBDT算法梳理】一、简介:GBDT有很多简称,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting ), GBRT(Gradient Boosting Regression Tree), MART(Multiple Additive Regression Tree),其实都是指的同一种算法,本文统一简称GBDT。...
2019-03-03 21:59:51 479
原创 Task1
1. 下载数据,读取数据,观察数据2. 将训练集拆分为训练集和验证集。要求:数据3-7分,随机种子2019分享自己对数据以及赛题的理解和发现 (建立模型通过长文本数据正文(article),预测文本对应的类别(class) )回答:1、已经下载数据2、代码:import osos.chdir('D:\\竞赛\\task1\\new_data\\')#...
2019-03-01 21:57:06 210
原创 随机森林算法梳理
【任务一 随机森林算法梳理】集成学习概念集成学习简单理解就是指采用多个分类器对数据集进行预测,从而提高整体分类器的泛化能力。换个角度考虑,训练完成之后就可以看成是单独的一个”假设”(或模型),只是该”假设”不一定是在原”假设”空间里的。因此,Ensemble方法具有更多的灵活性。理论上来说,Ensemble方法也比单一模型更容易过拟合。但是,实际中有一些方法(尤其是Bagging...
2019-03-01 21:36:17 873
原创 决策树系列之提升
0、由决策树和随机森林的关系的思考1、提升的概念2、提升的算法框架3、参数设置:正则化、衰减因子、降采样4、考虑用二阶导信息,以及对决策树的推导过程:(xgboost的原型)5、Xgboost的总结6、Adaboost的介绍和算法解释(附带公式推演)7、评估方法:偏差和方差8、相关问题:...
2018-06-09 21:35:03 2203 1
原创 决策树系列之随机森林
1、基本概念:Bagging、Booststraping、OOB数据2、什么是随机森林?3、随机森林与决策树的关系4、投票机制5、样本不均衡的方法:6、应用:6.1、使用随机森林计算样本间相似度6.2、使用随机森林计算样本重要度7、Isolation Forest8、思考问题...
2018-06-09 16:05:27 1388
原创 决策树系列之决策树知识点
1、什么是决策树;(decision tree)决策树是一种树型结构,其中: 每个内部的结点表示在一个属性的测试; 每个分支代表一个测试的输出; 每个叶节点代表一种类别;决策树是以实例为基础的归纳学习,采取的是自顶向下的递归方法;其基本思想是,以信息熵为度量构建一颗熵值下降最快的树,到叶子结点处的熵值为0,此时所有的叶节点的熵值都属于同一类。附上:叶节点的信息熵公式为:2、决策树...
2018-05-14 15:18:45 1951
原创 小总结 20180119
今天主要是对原来的代码增加新的统计模块,而且尝试做Kmeans+KNN 的结合。1、Kmeans 模型 能对训练集样本进行聚类,并且生成对应的标签数据。 KNN对训练集的样本和标签进行fit ,然后对测试集进行predict类群处理。 本身KNN算法是一个超参数函数,可以通过调优的。2、基于Kmeans模型进行聚类,推荐,同时,使用二分类模型进行准入判断,形成
2018-01-19 23:42:16 125
原创 每日新的总结-20180118
最怕每天碌碌无为,只想每天多点痕迹。1、对pandas 的dataframe 进行处理的时候,不采用for循环,可以直接采用 df.apply(func) 提高效率。如 df.apply(lamdba x: x2、对连续变量的离散化处理,比如对连续值在[0,100]的值,进行离散值划分为[0,10],[10,50],[50,100]等。在二分类问题上,还能结合WOE和VI进行合并处理。具体参照《
2018-01-18 22:55:08 194
转载 xgboost 入门教程
python平台下实现xgboost算法及输出的解释https://www.cnblogs.com/harekizgel/p/7683803.html
2018-01-07 23:47:32 543
转载 安装xgboost Windows 64位的步骤
主要参照博文:http://blog.csdn.net/xizero00/article/details/73008330一、windows下的使用别人编译好的库文件进行安装(简单)(0)前提是,你得下载好anaconda,并且安装之,我的下载地址如下(python3 windows 64位)https://repo.continuum.io/archive/A
2018-01-07 19:32:56 306
原创 设定脚本路径
设定路径的时候,可以用 // 和 \ 比如data=pd.read_csv('D:\\data.csv') 和 data=pd.read_csv('D:/data.csv') 在Windows环境上,两种方式都能用,但是上了Linux之后,就前者就不能用了,后者仍然可以用。因此,推荐以后同意用后者,用/来设定路径。
2017-12-05 18:00:42 643
原创 Python 以生产者的身份,访问Kafka集群
Kafka集群是基于多数投票原理的消息中间件,至少有三个服务器以上。 使用Python,以生产者身份向kafka推送数据,基本代码如下: from pykafka import KafkaClient list_kafka=['*****:****','****:***',****:****'] for item in list_kafka:
2017-12-04 23:14:47 932
原创 python 从远程服务器中获取文件到本地
通过paramiko库来实现,基本代码如下host_ip='***' #不需要带端口username='***' password='***'remote_path='***'local_path='***'def remote_scp(host_ip,remote_path,local_path,username,password): t = par
2017-12-03 14:18:17 20045
原创 开通Redis的远程访问
在redis的配置文件redis.conf中,找到bind localhost注释掉,而是将bind 127.0.0.1 改成了bind 0.0.0.0。
2017-12-02 21:38:29 210
原创 Ubuntu 安装Redis的步骤
系统为Ubuntu 16.04.3步骤如下:1、 下载压缩包: sudo wget http://download.redis.io/releases/redis-3.2.6.tar.gz2、解压: sudo tar -zxvf redis-3.2.6.tar.gz3、安装gcc: sudo apt-get ins
2017-12-02 20:22:57 206
原创 Python 多CPU并行处理数据
最近遇到结巴分词文本,耗时比较久,于是想到多进程来提升数据处理的效率。 基础代码如下: import os import multiprocessing # worker function def worker(sign, lock): lock.acquire() print(sign, os.getpid(
2017-11-30 21:23:40 10259 1
原创 Python环境下,返回脚本所在的位置
目前使用的是Python3.6. 返回当前初始执行文件的目录:os.getcwd() 返回脚本文件的路径: os.path.split(os.path.realpath(__file__)) 返回[目录,文件名]
2017-11-30 14:44:15 260
Task2 GBDT算法梳理
2019-03-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人