LGBM是如何处理类别特征,相比onehot编码的优势在哪

LGBM为什么可以直接输入类别特征,而不需要one-hot LGBM官方文档对如何处理类别特征的解释 Optimal Split for Categorical Features It is common to represent categorical features with ...

2018-09-10 16:21:07

阅读数 1541

评论数 0

信息熵、交叉熵与相对熵(KL散度)的关系,还介绍了联合信息熵和条件熵、互信息(信息增益)的概念

@(关于机器学习的其他)[KL散度][信息熵][交叉熵] 1、信息量 2、信息熵 3、交叉熵cross-entropy 3.1 交叉熵 cross-entropy在机器学习领域的作用 4、相对熵(KL散度) 4.1 相对熵(KL散度)与cross-entropy的关系 4.2 相对熵(...

2018-08-30 22:22:38

阅读数 403

评论数 0

机器学习各优化算法的简单总结

1 梯度下降 1.1 SGD 算法介绍 优点 缺点 1.2 Momentum 算法介绍 优点 缺点 1.3 Nestrov Momentum 算法介绍 优点 缺点 2 自适应方法 2.1 Adagrad 算法介绍 优点 缺点 2.2 RMSprop 算法介绍 ...

2018-08-18 16:37:03

阅读数 680

评论数 0

支持向量机数学证明与推导(SVM)

支持向量机(SVM) @(数据挖掘)[svm] 支持向量机(SVM) 一、线性可分支持向量机和硬间隔最大化 二、线性可分支持向量机的对偶算法(应用拉格朗日对偶,简化原始优化问题为求解对偶问题) 三、线性支持向量机与软间隔最大化 四、线性支持向量机的对偶算法 五、线性支持向量机的另外一种...

2018-07-30 10:12:05

阅读数 805

评论数 0

线性回归和逻辑回归损失函数推导

线性回归和逻辑回归损失函数推导 @(数据挖掘) 线性回归和逻辑回归损失函数推导 一、线性回归最小二乘loss推导 二、logistics回归加sigmoid原因以及交叉熵损失函数推导 一、线性回归最小二乘loss推导 我们都知道线性回归是机器学习中最简单,使用范围也很广...

2018-07-30 09:57:13

阅读数 1952

评论数 0

本地用浏览器远程访问服务器上的jupyter notebook或者jupyter lab,并解决启动时的PermissionError错误

本地用浏览器远程访问服务器上的jupyter notebook或者jupyter lab @(Linux系统) 大家都知道,对于从事数据科学或者机器学习的人来说,用jupyter做实验简直就是一个神器,但是往往许多算法和模型我们都希望利用远程的linux服务器进行实现和测试 这...

2018-06-25 11:49:32

阅读数 259

评论数 0

用pytorch去fine-tune预训练的卷积神经网络

Fine-tune pretrained Convolutional Neural Networks with PyTorch. @(深度学习) Features Gives access to the most popular CNN architectures pretrain...

2018-05-15 22:16:07

阅读数 2461

评论数 0

Basic RNN、LSTM的前向传播和反向传播详细解析

Basic RNN、LSTM的前向传播和反向传播详细解析 Basic RNN、LSTM由于它们独特的架构,被大量应用在自然语言处理和序列模型的任务上。通过它们自身特殊的结构,可以记住之前的输入中的部分内容和信息,并对之后的输出产生影响。 本文主要针对 :对RNN和LSTM有一定基础了解,但是...

2018-03-30 19:46:58

阅读数 2216

评论数 0

mac本机pySpark配置并且能在本地远程调用服务器Spark以及文件

mac本机pySpark配置并且能在本地远程调用服务器Spark以及文件 @(Spark)[pycharm|pySpark] 问题描述: 我们需要对一个巨大的原始数据集进行特征工程,打算将数据存在服务器上,并且希望能够使用本地的pycharm编写RDD程序,但是程序运行使用的是...

2018-03-18 16:35:55

阅读数 855

评论数 1

pandas的DataFrame怎么把几列数据合并成为新的一列

问题描述 我有一个用于模型训练的DataFrame如下图所示: 其中的country、province、city、county四列其实是位置信息的不同层级,应该合成一列用于模型训练 方法: parent_teacher_data['address'] = parent_teache...

2018-03-18 16:00:11

阅读数 27181

评论数 1

Mac配置iterm2 + oh-my-zsh + ys配色方案,并解决环境变量失效问题

Mac配置iterm2 + oh-my-zsh + ys配色方案,并解决环境变量失效问题最终的效果图如下所示: 使用iterm2配合oh-my-zsh的命令行,拥有语法高亮、命令自动补全、自动提示符、显示git仓库状态等功能整个配置流程1、安装iterm2首先我们下载的 iterm2 这个软...

2018-03-18 15:38:11

阅读数 16255

评论数 3

xgboost调用sklearn的交叉验证,并且使用自定义的训练集、验证集进行模型的调参

一、概述如果你的预测模型表现得有些不尽如人意,那就用XGBoost吧。XGBoost算法现在已经成为很多数据工程师的重要武器。它是一种十分精致的算法,可以处理各种不规则的数据。 构造一个使用XGBoost的模型十分简单。但是,提高这个模型的表现就有些困难(至少我觉得十分纠结)。这个算法使用了好几...

2017-11-17 13:31:41

阅读数 4480

评论数 0

DataFrame包含两列特征,转换成Index不变,将其中一列value作为columns,对应的另一列作为values

DataFrame包含两列特征,转换成Index不变,将其中一列value作为columns,对应的另一列作为values我们的原始数据是: 很明显这是一个有两列数据的DataFrame。而这时我其实想得到一新的DataFrame,把’wifi_name’作为columns,index保持不...

2017-11-09 11:49:44

阅读数 2273

评论数 0

csdn如何快速完美的转载别人的文章

转载于:http://blog.csdn.net/jiangping_zhu/article/details/18044109 作者:包心菜加糯米饭 1、找到要转载的文章,用chrome浏览器打开,右键选择审查元素 2、在chrome中下方的框里找到对应的内容,html脚本中找到对应...

2017-10-27 14:57:48

阅读数 142

评论数 0

如何实用github打造博客专属域名

本文出自:【张鸿洋的博客】 一、概述 哈,本篇博客不属于Android技术类的文章,但却有非常高的实用性。如果你心细的话,你会发现现在访问zhanghongyang.com或者guolin.tech你会发现最终跳转的是我们的csdn博客的列表目录。 有人会说,这个简单哇,买个域名,设置下...

2017-10-27 14:54:40

阅读数 262

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭