自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

RUC_Lee的博客

保持每天都在进步就是最大的进步!

  • 博客(133)

原创 Python | KS检验以及其余非参数检验的实现

Python | KS检验以及其余非参数检验的实现1 什么是KS检验2 KS检验分类?3 KS检验的Python实现3.1 检验指定的数列是否服从正态分布3.2 检验指定的两个数列是否服从相同分布4 其余的非参数检验4.1 Wilcoxon符号秩检验(t检验的非参数版本)4.2 Kruskal-Wallis H检验(方差分析的非参数版本)4.3 Mann-Whitney秩检验5 参考1 什么是KS检验定义:检验一个分布f(x)与理论分布g(x)【比如正态分布】是否一致,或两个观测值分布是否有显著差异的检

2020-10-26 15:56:57 34 1

原创 Python | Bootstrap采样实现

Python | Bootstrap采样实现1 什么是Bootstrap采样2 Bootstrap步骤3 为什么要进行Bootstrap采样4 采样的Python实现4.1 验证样本男女比例是否和总体一致4.2 模拟boostrap5 参考1 什么是Bootstrap采样先来看看维基百科的定义:即Bootstrap的定义是利用有限的样本经由多次重复抽样,建立起充足的样本,在机器学习中解决了样本不足的问题。Bootstrap是非参数统计方法,其实质是对观测信息进行再抽样,进而对总体的分布特性进行统计

2020-10-26 15:05:19 65 1

原创 中心极限定理的理解

中心极限定理的理解1 背景2 Python模拟中心极限定理2.1 生成总体数据2.2 可视化2.3 抽一组看看2.4 抽很多组看看3 应用3.1 应用1:对于总体的估计3.2 应用2:多场景下统计量的近似使用4 中心极限定理可视化5 参考1 背景统计学上有一个重要的理论,就是中心极限定理,它的定义如下:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-514qxnIY-1603356526721)(attachment:image.png)]下面我们希望直观上来去理解下中

2020-10-22 16:51:30 43 2

原创 iv值计算(含qcut细节)

iv值计算(含qcut细节)1 背景2 含有重复的数据2.1 数据准备2.2 等频分组2.3 等频分组-加上去掉重复的值3 不含有重复的数据3.1 数据准备3.2 等频分组3.3 等频分组-加上去掉重复值4 iv计算4.1 读入数据4.2 iv值计算4.3 结果分析1 背景在计算woe以及相关的iv值的时候,需要首先对数据进行分箱,分箱一般采用qcut,即等频分组。下面希望验证qcut(等频分组)-相同的值会在一组,即如果一组数据一半都是0,这些会被分在一组。同时计算iv值并进行相关分析2 含有重

2020-10-22 13:07:52 35

原创 买卖股票的最佳时机及其变形

买卖股票的最佳时机及其变形1 题1:面试题1.1 问题1思路1.2 问题1代码实现1.3 问题2思路1.4 问题2代码实现2 题2:只能完成一笔交易2.1 思路1:暴力解法2.2 思路2:一次遍历3 题3:能完成多笔交易3.1 思路4 参考1 题1:面试题给定一个数字v代表开始有多少钱,一个数组代表股票每天的价格。Q1:请问最多只能买一次、卖一次的情况下,最大化利润是多少?Q2:不限制买卖次数的情况下,利润可以达到多少呢?样例:输入:1000[100,80,120,130,70,60,

2020-10-21 21:06:19 30

原创 Focal Loss原理及实现

Focal Loss原理及实现1 什么是Focal Loss?2 什么场景下用Focal Loss?3 Focal Loss的原理是什么?为什么能解决样本不平衡问题?3.1 交叉熵损失函数binary loss3.2 Focal Loss的改进4 Focal Loss的实现4.1 导入库4.2 切分数据4.3 分训练集和测试集4.4 Focal Loss+Lightgbm5 写在最后6 参考资料1 什么是Focal Loss?最近工作中,Leader让了解一下Focal Loss,尝试解决信贷场景下样本

2020-10-19 15:32:17 107 1

原创 FM原理及实现

FM原理及实现1 FM是个啥?2 FM的数学原理3 FM特征的实现样例4 FM的代码实现4.1 数据准备4.2 主代码实现4.2.1 安装xlearn4.2.2 拟合模型4.2.3 预测并得到KS值5 FM的优缺点1 FM是个啥?FM模型首先是一个有监督学习方法,主要用在CTR预估上,适用的情形是高维稀疏!优势是可以自动组合交叉特征,替代人工进行特征工程~同时很多场景下FM模型作为一开始的embedding,相比word2vec这样无监督的embedding,基于有监督FM模型的embedding效果

2020-10-14 12:17:18 66

原创 LGB+LR的实践

文章目录1 背景2 原理3 数据的准备3.1 读入数据3.2 切分训练集测试集4 LR5 LGB6 LGB+LR6.1 LGB实现6.2 LGB的vector导出来!6.2.1 训练集6.2.2 测试集6.3 LR+LGB7 结果对比1 背景相信大名鼎鼎的GBDT+LR组合很多小伙伴都听过,这种组合模型的预测效果要比单模型要好,但之前一直没有亲自实践过,最近刚好公司一个项目用到了,故抓紧时间总结一波~2 原理简单来说就是首先用树模型(GBDT、Xgboost、Lightgbm)来预测样本结果,然后将

2020-10-11 20:59:38 94

原创 Python | 含多个未知参数方程的曲线绘制

Python | 含多个未知参数方程的曲线绘制1 背景2 代码解决3 参考1 背景前几天,一位高中同(ji)学(you)给我发来一个问题,具体见下面图片:上述除了Vo和fu,其余字母均已知,而且fu并不是u的函数,就是一个符号。现在的问题是希望得到Vo和fu的关系:最简单的方法当然是直接解出Vo=XXXfu,即类似于y=f(x),但是上述方程过于复杂,无法直接求解得到,或者说很难得到!那具体该如何处理呢?退而求其次,我不需要求出两者具体的一个关系,而是直接画出图像来,通过图形直观得出两者关

2020-08-09 23:23:13 161 1

原创 深度学习 | Word2vec原理及应用

聊聊Word2vec1 前言2 什么是Word2vec?2.1 定义2.1.1 分词的原理介绍2.1.2 文本向量化的方式2.2 数学原理2.2.1 CBOW(Continuous Bag-of-Words)原理2.2.2 Skip-Gram原理2.2.3 为什么要有Word2vec 而不是用原来的?2.2.4 Word2vec基础:霍夫曼树2.2.5 Hierarchical Softmax2....

2020-06-17 23:43:19 538

原创 Python | 记一次模型上线的惨痛教训
原力计划

记一次模型上线的惨痛教训前言演示代码背景需要完成的任务bug浮出水面写在最后-Python如何学习前言最近两周一直在忙导师那边一个项目,进展到最后一步模型上线了,但花了2周多才搞定,其中一个原因是代码中有一个bug,导致模型结果一直和之前小样本测试差距较大,经过项目组小伙伴们的一起努力,终于找到了这个很”狡猾"的bug,故总结并和大家进行分享(由于这两周工作强度太大,很多天工作到深夜实在没有精...

2020-03-27 22:44:49 330

原创 疫情对中小微企业的影响

简单的生活,明亮的世界(微信公众号:土申会)。

2020-03-05 22:35:32 214

原创 随笔 | 少一点人工,多一点智能

欢迎大家关注微信公众号:土申会!简单的生活,明亮的世界。

2020-03-04 11:33:16 84

原创 剑指offer | 数组问题汇总

数组问题汇总1 前言2 题目2.1 调整数组顺序使奇数位于偶数前面2.1.1 思路12.1.2 代码12.1.3 思路22.1.4 代码22.2 数组中出现次数超过一半的数字2.2.1 思路12.2.2 代码12.2.3 思路22.2.4 代码21 前言2 题目2.1 调整数组顺序使奇数位于偶数前面输入一个整数数组,实现一个函数来调整该数组中数字的顺序,使得所有的奇数位于数组的前半部分,...

2019-09-07 02:15:16 97

原创 机器学习 | Faiss实现

Faiss原理及实现1 前言2 什么是Faiss2.1 为什么会出现Faiss?2.2 Faiss的优点2.3 Faiss组件2.3.1 索引Index2.3.2 索引Index选择的原则2.4 优化方法:单元-探测(Cell-probe) 方法3 Faiss的Python实现3.1 导入库3.2 准备数据3.3 创建索引(Index)3.4 查找相似向量3.5 加速搜索3.6 减少内存3.7 G...

2019-08-20 02:10:27 1606

原创 Redis | Redis入门

Redis入门看这篇就够了!1 前言2 什么是Redis?2.1 定义2.2 为什么要用Redis?2.3 Redis应用场景3 如何在Linux环境安装Redis?3.1 为什么要在Linux环境安装Redis客户端?3.2 如何安装?4 Redis相关命令4.1 查看所有的keys4.2 得到Key对应Value的值4.3 随机得到一个key4.4 设置一个key-value4.5 连接Red...

2019-08-18 00:40:16 102

原创 Linux | 常用命令

Linux常用命令1 前言2 Linux常见命令2.1 查看配置2.2 看文件夹情况2.3 配置vim+使用2.4 scp拷贝+查看当前路径位置2.5 复制粘贴快捷键2.6 使用xshell上传下载文件2.7 下载一个文件-get2.8 查看文件的前n行2.9 神器 tmux2.10 多个文件打包+解压2.11 查看现在运行情况2.12 统计一个文件有多少行-wc2.13 查看linux磁盘+某...

2019-08-17 11:18:43 172

原创 剑指offer | 链表问题汇总

链表问题汇总1 前言2 题目题1 链表中倒数第k个结点1 前言2 题目题1 链表中倒数第k个结点输入一个链表,输出该链表中倒数第k个结点。思路:如果输出链表正向的第k个结点会吗?应该会的!那么再得到长度,一减,就ok了啊!但是上面思路太麻烦,有一个非常牛逼的思路!牛逼思路:我们可以定义两个指针。第一个指针从链表的头指针开始遍历向前走k-1,第二个指针保持不动;从第k步开...

2019-08-02 14:58:32 56

原创 机器学习 | 最大熵模型

什么是最大熵模型?1 前言2 什么是最大熵模型?2.1 通俗解释3 最大熵模型的应用场景4 模型优缺点参考1 前言继续梳理李航老师《统计学习方法》的章节内容,今天我们一起来看一看啥叫最大熵模型?2 什么是最大熵模型?2.1 通俗解释首先来看看吴军老师的《数学之美》书中对于最大熵模型的通俗解释。一句话概括:不要把鸡蛋放到一个篮子里!保留全部的不确定性,将风险降到最小,此时对应的熵最大...

2019-07-26 10:54:22 160

转载 【转载】LaTeX 各种命令和符号

LaTeX 各种命令,符号前言前言在别人博客看到特别好的介绍LaTeX 各种命令,符号,而自己又经常需要查阅,所以转载过来到自己的博客以便自己后续学习!特别好的整理!再次感谢博主!(同时也是自己第一篇转载的文章hhh) ...

2019-07-25 21:50:45 220

原创 面试题 | 帽子问题

一道有意思的帽子问题1 前言2 问题及答案2.1 问题2.2 解答2.3 补充参考1 前言在公众号【程序员小灰】那看到一道有意思的概率问题,觉得挺好玩,可以开拓思路~而且和之前写的博客中的一个囚徒困境题貌似有点关系?故总结一波。2 问题及答案2.1 问题有5顶帽子

2019-07-25 18:16:12 540

原创 剑指offer | 5题

题1:重建二叉树题目:输入某二叉树的前序遍历和中序遍历的结果,请重建出该二叉树。假设输入的前序遍历和中序遍历的结果中都不含重复的数字。例如输入前序遍历序列{1,2,4,7,3,5,6,8}和中序遍历序列{4,7,2,1,5,3,8,6},则重建二叉树并返回。思路:重建二叉树返回的结果是依次打印出二叉树的根节点,肯定要用到递归的思想先根据前序list找到根节点以及其索引然后在前序和...

2019-07-25 12:05:58 44

原创 机器学习 | SVD分解

什么是SVD分解?1 前言2 SVD的来龙去脉2.1 概念2.2 为什么要做特征值分解以及为什么会出现SVD?2.3 SVD的原理2.3.1 完全奇异值分解过程2.3.2 部分奇异值分解3 SVD的举例4 SVD的应用5 SVD的优缺点1 前言经常看到SVD奇异值分解,但一直没有去了解它讲的什么,刚好在李航老师统计学习方法第二版上是单独的一章,下面看了一些博客总结一下~2 SVD的来龙去脉...

2019-07-24 22:21:25 155

原创 R | 常用函数-2

常用R函数-21 前言2 常用函数2.1 看变量的类型 mode2.2 dataframe根据某一列进行降序/升序排列 order2.3 字符串拼接 paste2.4 判断向量中是否存在一个元素 %in%2.5 缺失值相关函数2.6 判断两列是否完全一样——identical2.7 取消科学计数法,用原始数据的方式——options2.8 删空格-某列字符删去多余的空格-str_trim2.9 查...

2019-07-24 02:29:44 97

原创 R语言 | 记一次用R语言进行数据分析的经历

利用R语言进行数据分析1 前言2 问题及解决思路和代码2.1 问题1:逻辑判断生成新变量2.1.1 问题描述2.1.2 规则2.1.3 对应的R语言基础2.1.4 伪代码2.1.5 真正的实现2.1.6 分组计算得结果2.2 问题2:正则提取特征+绘制对比箱线图2.2.1 问题描述参考1 前言最近无论是实习还是做项目,更多的都是使用Python来做一些分析,建模的工作,最近刚好用到R语言来解决...

2019-07-24 00:46:38 1516

原创 机器学习 | GBDT+XGBoost知识补充及梳理

GBDT+XGBoost知识补充及梳理1 前言2 面试被问到的相关点参考1 前言2 面试被问到的相关点参考

2019-07-23 22:10:10 272

原创 爬虫 |《破冰行动》豆瓣短评爬取

如何爬取《破冰行动》豆瓣短评1 前言2 准备条件3 Python实现3.1 导入库3.2 评论爬取3.3 评分3.4 有用人数3.5 评论时间3.6 用户首页网址3.7 拼接成数据框3.8 翻页功能的实现4 封装成整体进行数据爬取4.1 往list里面逐个添加元素4.2 两个list直接相加4.3 主代码4.4 拼接成数据框4.5 导出5 读入数据-补充爬取用户首页信息5.1 读入数据5.2 地址...

2019-07-21 17:37:35 251

原创 深度学习 | Colab入门

Colab入门1 前言2 准备工作3 如何读入数据4 如何安装keras等第三方库参考1 前言最近希望run起来深度学习的相关模型,比如CNN,刚好也是之前的一个项目,但是本机实现跑不动,于是请教师兄,建议我上手Google的Colab,于是刚才就吭哧吭哧的搞起来了!初次上手还是遇到了很多坑的,下面总结一下,方便后面入门的小伙伴们避坑~2 准备工作登录的网址是:https://colab...

2019-07-17 16:35:03 277

原创 Python | 正则表达式

Python实现正则表达式1 前言2 常用的正则符号3 Python实现3.1 字符串的匹配查询3.2 字符串的匹配替换3.3 字符串的匹配分割4 参考1 前言正则表达式在实际的数据分析中用处还是蛮广泛的,经常用在特征提取上面,另外在爬虫中也经常会用到,详情见之前的博客:爬虫 | 打印page_source+正则匹配爬虫 | selenium动态爬取美团商家图片机器学习|LDA主题模型...

2019-07-15 13:35:58 139

原创 面试题 | 一道有意思的概率题

一道有意思的概率题1 前言2 题目及解答2.1 题目2.2 解答2.2.1 直观解释2.2.2 概率解释3 Python模拟参考1 前言最近遇到一个很有意思的概率论问题,之前貌似室友也和我说过?恰巧前几天参加头条的面试又遇到了概率论的问题(哭),愈发觉得概率论相当重要,于是,遇到一个总结一个吧~锻炼自己的思维 加油!2 题目及解答2.1 题目这个题目是这样的,有三个门A,B,C,只有一个...

2019-07-15 12:39:14 314

原创 数据结构与算法 | 汇总

阶段总结汇总1 前言2 博客汇总3 接下来的计划参考1 前言经过应该快1个月的时间,结合着b站系列视频(见下面参考链接)以及小灰的《漫画算法》这本书,将数据结构与算法算入了个门,剑指offer刷了几题,但还远远不够,也是接下来要重点发力的!下面先把自己之前数据结构与算法所记录的笔记进行一个汇总整理!2 博客汇总大概有4大块:基本概念篇+基本结构篇+排序算法篇+查找篇!1、基本概念篇...

2019-07-14 15:54:30 271

原创 数据结构与算法 | 二叉树

什么叫树?二叉树?Python实现?1 什么叫树2 树的术语3 树的种类4 数的存储方式5 树的应用场景6 二叉树6.1 概念6.2 性质7 代码实现二叉树7.1 定义二叉树的节点7.2 往二叉树添加元素7.3 二叉树的遍历7.4 知识点补充8 给出一个序列 如何画出树参考1 什么叫树树(英语:tree)是一种抽象数据类型(ADT)或是实作这种抽象数据类型的数据结构,用来模拟具有树状结构性质...

2019-07-14 15:38:51 99

原创 深度学习 | 循环神经网络RNN

什么是RNN?1 前言2 RNN的应用场景3 RNN的原理3.1 前向计算过程3.2 反向传播过程4 RNN的变种-LSTM4.1 什么叫梯度消失和梯度爆炸?4.2 什么叫LSTM?4.3 LSTM相关面试题?5 keras实现RNN参考1 前言说起深度学习,大家首先会想到几个经典的模型,比如CNN,RNN等,上一篇博客:深度学习 | CNN原理及Keras实现 中笔者已经将CNN的原理以及实...

2019-07-11 22:08:34 151

原创 求职 | 百度笔试题

百度笔试题1 前言2 笔试题1 前言最近百度开始了秋招提前批,现记录下笔试题,不会的进行相应总结。2 笔试题https://www.nowcoder.com/questionTerminal/bf37a5c586664715bbb06e395e6134b6?orderByHotValue=0&page=1&onlyReference=falsehttps://www.n...

2019-07-11 02:03:00 200

原创 深度学习 | CNN原理及Keras实现

CNN原理及Keras实现1 前言2 什么叫卷积神经网络?2.1 应用场景2.2 CNN的网络结构2.2.1 卷积层2.2.2 池化层2.2.3 Flatten层 & Fully Connected Layer2.3 其余的问题3 keras简单介绍及实现简单三层神经网络3.1 导入相关的库3.2 读入数据3.3 搭建网络3.4 编译3.5 拟合模型3.6 绘制损失函数曲线图3.7 预测4...

2019-07-10 23:17:36 481 1

原创 数据结构与算法 | 二分查找

二分查找1 前言2 什么叫二分查找?3 代码实现3.1 递归版本3.2 非递归版本4 时间复杂度5 知识点补充参考1 前言关于二分查找,首先来看一个段子,见下图:有点意思,虽然是个段子,但是大妈查找有问题书的方式其实就是今天我们要说的二分查找!也叫折半查找!下面就跟随小编的角度来具体看看什么叫二分查找吧!2 什么叫二分查找?搜索是在一个项目集合中找到一个特定项目的算法过程。搜索通常...

2019-07-10 10:49:24 110 2

原创 数据结构与算法 | 排序算法汇总

排序算法汇总1 前言2 排序算法对比3 排序算法博客汇总参考1 前言排序算法算是自己数据结构方面第一个接触的完整的算法,跟着b站的视频也总结了几篇排序算法的博客,下面进行一个梳理。2 排序算法对比上一个图:其中用的比较多的就是 快速排序!因为其时间较快,应用广泛,虽然最坏情况下为O(n2)O(n^2)O(n2)平方复杂度,但是更多的还是O(nlogn)O(nlogn)O(nlogn),...

2019-07-09 16:50:29 140

原创 数据结构与算法 | 归并排序

什么叫归并排序?1 什么叫归并排序?2 代码实现2.1 思路2.2 代码2.3 代码拆解3 算法时间复杂度4 算法稳定性参考1 什么叫归并排序?什么叫归并排序呢?这也是我们排序算法中目前最后一个,后面可能还会有补充!归并排序是采用分治法的一个非常典型的应用。归并排序的思想就是先递归分解数组,再合并数组。将数组分解最小之后,然后合并两个有序数组。基本思路是比较两个数组的最前面的数,谁小...

2019-07-09 16:38:17 69

原创 数据结构与算法 | 快速排序

快速排序代码实现补充待补充!代码实现思路:定义一个初始值mid_value 和两个游标 low high控制两个游标的移动,要实现的效果是什么呢?就是最后让mid_value左边的值都比它小,右边的值都比它大!这样分成两部分之后再递归调用这个函数就ok了!能实现最终的排序!那我们要怎么操作呢?【两边夹逼!】def quick_sort(alist, first, last): ...

2019-07-08 12:29:04 90

原创 数据结构与算法 | 希尔排序

啥叫希尔排序?1 什么叫希尔排序?2 代码实现3 时间复杂度4 稳定性参考1 什么叫希尔排序?希尔排序(Shell Sort)是插入排序的一种。该方法因DL.Shell于1959年提出而得名。希尔排序的基本思想是:对列表数据选定一个初始gap,然后依次挑出数来,分为了几组,然后对每一组的数据进行插入排序,再将将数据归并起来,减少gap,重复上述过程,直至gap=1,此时做最后一次循环然后停...

2019-07-07 19:26:44 66

空空如也

空空如也

空空如也
提示
确定要删除当前文章?
取消 删除