coffeetea01-CSDN博客

原创 Task2 GBDT算法梳理

【Task2 GBDT算法梳理】一、简介：GBDT有很多简称，有GBT（Gradient Boosting Tree）, GTB（Gradient Tree Boosting ）， GBRT（Gradient Boosting Regression Tree）, MART(Multiple Additive Regression Tree)，其实都是指的同一种算法，本文统一简称GBDT。...

2019-03-03 21:59:51 514

原创 Task1

1. 下载数据，读取数据，观察数据2. 将训练集拆分为训练集和验证集。要求：数据3-7分，随机种子2019分享自己对数据以及赛题的理解和发现（建立模型通过长文本数据正文(article)，预测文本对应的类别(class) ）回答：1、已经下载数据2、代码：import osos.chdir('D:\\竞赛\\task1\\new_data\\')#...

2019-03-01 21:57:06 228

原创随机森林算法梳理

【任务一随机森林算法梳理】集成学习概念集成学习简单理解就是指采用多个分类器对数据集进行预测，从而提高整体分类器的泛化能力。换个角度考虑，训练完成之后就可以看成是单独的一个”假设”（或模型），只是该”假设”不一定是在原”假设”空间里的。因此，Ensemble方法具有更多的灵活性。理论上来说，Ensemble方法也比单一模型更容易过拟合。但是，实际中有一些方法(尤其是Bagging...

2019-03-01 21:36:17 905

原创决策树系列之提升

0、由决策树和随机森林的关系的思考1、提升的概念2、提升的算法框架3、参数设置：正则化、衰减因子、降采样4、考虑用二阶导信息，以及对决策树的推导过程：（xgboost的原型）5、Xgboost的总结6、Adaboost的介绍和算法解释（附带公式推演）7、评估方法：偏差和方差8、相关问题：...

2018-06-09 21:35:03 2245 1

原创决策树系列之随机森林

1、基本概念：Bagging、Booststraping、OOB数据2、什么是随机森林？3、随机森林与决策树的关系4、投票机制5、样本不均衡的方法：6、应用：6.1、使用随机森林计算样本间相似度6.2、使用随机森林计算样本重要度7、Isolation Forest8、思考问题...

2018-06-09 16:05:27 1416

原创决策树系列之决策树知识点

1、什么是决策树；（decision tree）决策树是一种树型结构，其中：每个内部的结点表示在一个属性的测试；每个分支代表一个测试的输出；每个叶节点代表一种类别；决策树是以实例为基础的归纳学习，采取的是自顶向下的递归方法；其基本思想是，以信息熵为度量构建一颗熵值下降最快的树，到叶子结点处的熵值为0，此时所有的叶节点的熵值都属于同一类。附上：叶节点的信息熵公式为：2、决策树...

2018-05-14 15:18:45 2004

原创小总结 20180119

今天主要是对原来的代码增加新的统计模块，而且尝试做Kmeans+KNN 的结合。1、Kmeans 模型能对训练集样本进行聚类，并且生成对应的标签数据。 KNN对训练集的样本和标签进行fit ，然后对测试集进行predict类群处理。本身KNN算法是一个超参数函数，可以通过调优的。2、基于Kmeans模型进行聚类，推荐，同时，使用二分类模型进行准入判断，形成

2018-01-19 23:42:16 139

原创每日新的总结-20180118

最怕每天碌碌无为，只想每天多点痕迹。1、对pandas 的dataframe 进行处理的时候，不采用for循环，可以直接采用 df.apply(func) 提高效率。如 df.apply(lamdba x: x2、对连续变量的离散化处理，比如对连续值在[0,100]的值，进行离散值划分为[0,10],[10,50],[50,100]等。在二分类问题上，还能结合WOE和VI进行合并处理。具体参照《

2018-01-18 22:55:08 213

转载 xgboost 入门教程

python平台下实现xgboost算法及输出的解释https://www.cnblogs.com/harekizgel/p/7683803.html

2018-01-07 23:47:32 592

转载安装xgboost Windows 64位的步骤

主要参照博文：http://blog.csdn.net/xizero00/article/details/73008330一、windows下的使用别人编译好的库文件进行安装（简单）（0）前提是，你得下载好anaconda，并且安装之，我的下载地址如下（python3 windows 64位）https://repo.continuum.io/archive/A

2018-01-07 19:32:56 327

原创设定脚本路径

设定路径的时候，可以用 // 和 \ 比如data=pd.read_csv('D:\\data.csv') 和 data=pd.read_csv('D:/data.csv') 在Windows环境上，两种方式都能用，但是上了Linux之后，就前者就不能用了，后者仍然可以用。因此，推荐以后同意用后者，用/来设定路径。

2017-12-05 18:00:42 690

原创 Python 以生产者的身份，访问Kafka集群

Kafka集群是基于多数投票原理的消息中间件，至少有三个服务器以上。使用Python，以生产者身份向kafka推送数据，基本代码如下： from pykafka import KafkaClient list_kafka=['*****:****','****:***',****:****'] for item in list_kafka:

2017-12-04 23:14:47 954

原创 python 从远程服务器中获取文件到本地

通过paramiko库来实现，基本代码如下host_ip='***' #不需要带端口username='***' password='***'remote_path='***'local_path='***'def remote_scp(host_ip,remote_path,local_path,username,password): t = par

2017-12-03 14:18:17 20155

原创开通Redis的远程访问

在redis的配置文件redis.conf中,找到bind localhost注释掉,而是将bind 127.0.0.1 改成了bind 0.0.0.0。

2017-12-02 21:38:29 225

原创 Ubuntu 安装Redis的步骤

系统为Ubuntu 16.04.3步骤如下：1、下载压缩包： sudo wget http://download.redis.io/releases/redis-3.2.6.tar.gz2、解压： sudo tar -zxvf redis-3.2.6.tar.gz3、安装gcc: sudo apt-get ins

2017-12-02 20:22:57 224

原创 Python 多CPU并行处理数据

最近遇到结巴分词文本，耗时比较久，于是想到多进程来提升数据处理的效率。基础代码如下： import os import multiprocessing # worker function def worker(sign, lock): lock.acquire() print(sign, os.getpid(

2017-11-30 21:23:40 10314 1

原创 Python环境下，返回脚本所在的位置

目前使用的是Python3.6. 返回当前初始执行文件的目录：os.getcwd() 返回脚本文件的路径： os.path.split(os.path.realpath(__file__)) 返回[目录,文件名]

2017-11-30 14:44:15 279

Task2 GBDT算法梳理主要用于社群的资料整合。GBDT有很多简称，有GBT（Gradient Boosting Tree）, GTB（Gradient Tree Boosting ）， GBRT（Gradient Boosting Regression Tree）, MART(Multiple Additive Regression Tree)，其实都是指的同一种算法，本文统一简称GBDT。

2019-03-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人