AndrewHR-CSDN博客

原创 LGBM是如何处理类别特征，相比onehot编码的优势在哪

LGBM为什么可以直接输入类别特征，而不需要one-hotLGBM官方文档对如何处理类别特征的解释Optimal Split for Categorical FeaturesIt is common to represent categorical features with one-hot encoding, but this approach is suboptimal f...

2018-09-10 16:21:07 8441

原创信息熵、交叉熵与相对熵(KL散度)的关系，还介绍了联合信息熵和条件熵、互信息（信息增益）的概念

@(关于机器学习的其他)[KL散度][信息熵][交叉熵]1、信息量2、信息熵3、交叉熵cross-entropy3.1 交叉熵 cross-entropy在机器学习领域的作用4、相对熵（KL散度）4.1 相对熵（KL散度）与cross-entropy的关系4.2 相对熵（KL散度）非负性证明5、联合信息熵和条件信息熵6、互信息（信息增益）6.1 非负性证明...

2018-08-30 22:22:38 2247 2

原创机器学习各优化算法的简单总结

1 梯度下降1.1 SGD算法介绍优点缺点1.2 Momentum算法介绍优点缺点1.3 Nestrov Momentum算法介绍优点缺点2 自适应方法2.1 Adagrad算法介绍优点缺点2.2 RMSprop算法介绍优点缺点2.3 Adadelta算法介绍优点缺点2.4 Adam算法介绍优点...

2018-08-18 16:37:03 2014

原创支持向量机数学证明与推导（SVM）

支持向量机（SVM）@(数据挖掘)[svm]支持向量机（SVM）一、线性可分支持向量机和硬间隔最大化二、线性可分支持向量机的对偶算法（应用拉格朗日对偶，简化原始优化问题为求解对偶问题）三、线性支持向量机与软间隔最大化四、线性支持向量机的对偶算法五、线性支持向量机的另外一种合理解释六、核技巧一、线性可分支持向量机和硬间隔最大化名词解释线...

2018-07-30 10:12:05 3784 1

原创线性回归和逻辑回归损失函数推导

线性回归和逻辑回归损失函数推导@(数据挖掘)线性回归和逻辑回归损失函数推导一、线性回归最小二乘loss推导二、logistics回归加sigmoid原因以及交叉熵损失函数推导一、线性回归最小二乘loss推导我们都知道线性回归是机器学习中最简单，使用范围也很广的一个算法，经典且使用。而它的损失函数最小二乘损失，大家也很熟悉，但是为什么要用最小二乘loss呢？正...

2018-07-30 09:57:13 7048

原创本地用浏览器远程访问服务器上的jupyter notebook或者jupyter lab，并解决启动时的PermissionError错误

本地用浏览器远程访问服务器上的jupyter notebook或者jupyter lab@(Linux系统) 大家都知道，对于从事数据科学或者机器学习的人来说，用jupyter做实验简直就是一个神器，但是往往许多算法和模型我们都希望利用远程的linux服务器进行实现和测试这里介绍一种能用本地的浏览器访问服务器上架设的jupyter的方案，使得我们可以通过本地浏览器使用服务器...

2018-06-25 11:49:32 2667

转载用pytorch去fine-tune预训练的卷积神经网络

Fine-tune pretrained Convolutional Neural Networks with PyTorch.@(深度学习)FeaturesGives access to the most popular CNN architectures pretrained on ImageNet.Automatically replaces classifier o...

2018-05-15 22:16:07 6276 1

原创 Basic RNN、LSTM的前向传播和反向传播详细解析

Basic RNN、LSTM的前向传播和反向传播详细解析Basic RNN、LSTM由于它们独特的架构，被大量应用在自然语言处理和序列模型的任务上。通过它们自身特殊的结构，可以记住之前的输入中的部分内容和信息，并对之后的输出产生影响。本文主要针对：对RNN和LSTM有一定基础了解，但是对公式推导还不是完全掌握的童鞋（尤其是lstm的反向传播部分），欢迎各位批评指正~由于markdow...

2018-03-30 19:46:58 5653

原创 mac本机pySpark配置并且能在本地远程调用服务器Spark以及文件

mac本机pySpark配置并且能在本地远程调用服务器Spark以及文件@(Spark)[pycharm|pySpark]问题描述：我们需要对一个巨大的原始数据集进行特征工程，打算将数据存在服务器上，并且希望能够使用本地的pycharm编写RDD程序，但是程序运行使用的是服务器的Spark引擎，而程序内的文件读写也是直接使用服务器的文件路径和文件解决办法：...

2018-03-18 16:35:55 2338 1

原创 pandas的DataFrame怎么把几列数据合并成为新的一列

问题描述我有一个用于模型训练的DataFrame如下图所示：其中的country、province、city、county四列其实是位置信息的不同层级，应该合成一列用于模型训练方法：parent_teacher_data['address'] = parent_teacher_data['country']+parent_teacher_data['province']+p...

2018-03-18 16:00:11 102846 6

原创 Mac配置iterm2 + oh-my-zsh + ys配色方案，并解决环境变量失效问题

Mac配置iterm2 + oh-my-zsh + ys配色方案，并解决环境变量失效问题最终的效果图如下所示：使用iterm2配合oh-my-zsh的命令行，拥有语法高亮、命令自动补全、自动提示符、显示git仓库状态等功能整个配置流程1、安装iterm2首先我们下载的 iterm2 这个软件，比Mac自带的终端软件更加强大。直接官网 http://iterm2.com/ 下载，然后把它拖到应

2018-03-18 15:38:11 49817 10

原创 xgboost调用sklearn的交叉验证，并且使用自定义的训练集、验证集进行模型的调参

一、概述如果你的预测模型表现得有些不尽如人意，那就用XGBoost吧。XGBoost算法现在已经成为很多数据工程师的重要武器。它是一种十分精致的算法，可以处理各种不规则的数据。构造一个使用XGBoost的模型十分简单。但是，提高这个模型的表现就有些困难(至少我觉得十分纠结)。这个算法使用了好几个参数。所以为了提高模型的表现，参数的调整十分必要。在解决实际问题的时候，有些问题是很难回答的——你需要

2017-11-17 13:31:41 11309 3

原创 DataFrame包含两列特征，转换成Index不变，将其中一列value作为columns，对应的另一列作为values

DataFrame包含两列特征，转换成Index不变，将其中一列value作为columns，对应的另一列作为values我们的原始数据是: 很明显这是一个有两列数据的DataFrame。而这时我其实想得到一新的DataFrame，把’wifi_name’作为columns，index保持不变，而对应的‘strength’作为values，如果原始DataFrame的一个index对应的某些w

2017-11-09 11:49:44 5646

转载 csdn如何快速完美的转载别人的文章

转载于：http://blog.csdn.net/jiangping_zhu/article/details/18044109作者：包心菜加糯米饭1、找到要转载的文章，用chrome浏览器打开，右键选择审查元素2、在chrome中下方的框里找到对应的内容，html脚本中找到对应的节点，选中节点，网页上被选中内容会被高亮显示，然后右键菜单选中 Copy as HTML

2017-10-27 14:57:48 438

转载如何实用github打造博客专属域名

本文出自:【张鸿洋的博客】一、概述哈，本篇博客不属于Android技术类的文章，但却有非常高的实用性。如果你心细的话，你会发现现在访问zhanghongyang.com或者guolin.tech你会发现最终跳转的是我们的csdn博客的列表目录。有人会说，这个简单哇，买个域名，设置下域名解析不就好了么？这样是不行的，关键在于我的博客站点是csdn所提供的，归属于csdn的bl

2017-10-27 14:54:40 448

AndrewHR的博客