- 博客(144)
- 收藏
- 关注
原创 游程检验和随机性检验
游程检验和随机性检验1 游程检验的含义2 应用1:两总体分布一致性检验2.1 定义及解决的问题2.2 原理2.2.1 Step1:提出假设2.2.2 Step2:计算检验统计量2.2.3 Step3:决策2.3 Python实现3 应用2:样本随机性检验(单总体)3.1 定义及解决的问题3.2 原理3.2.1 Step1:提出假设3.2.2 Step2:计算检验统计量3.2.3 Step3:决策3.3 Python实现1 游程检验的含义什么叫游程检验(Runs test)呢?游程检验的定义:亦称“连贯
2022-02-14 09:50:41 11748 2
原创 KL散度及Python实现
KL散度及Python实现1 KL散度1.1 定义1.2 公式1.3 几个结论1.4 应用1.4.1 应用1:机器学习领域1.4.2 应用2:用户画像2 Python实现求解2.1 生成分布2.2 计算方法12.3 计算方法23 参考1 KL散度在很多场合,经常会遇到KL散度这个概念,那么它到底是什么含义呢?如何定义的?又有哪些应用场景?最后如何用Python进行计算呢?1.1 定义KL散度(Kullback-Leibler divergence,简称KLD):在信息系统中称为相对熵(relat
2021-12-09 16:36:01 16364 3
原创 灰色关联分析及实践
灰色关联分析及实践1 背景2 灰色关联分析2.1 定义2.2 名称起源2.3 思想2.4 作用2.5 算法步骤2.6 评价标准2.7 应用应用1: 旅游业发展程度的影响因子应用2:哪一种产业对GDP总量影响最大?应用3:不同产业之间的协同度(关联度)3 Python实现3.1 读入数据3.2 确定参考序列和比较序列3.3 归一化处理3.4 计算灰色关联系数3.5 计算灰色关联度3.6 结论4 总结1 背景近期需要针对某省份十大关心的产业进行一个产业协同分析,从而分析出不同产业之间的关联程度,以及单独产业
2021-12-03 15:21:47 3772 1
原创 统计案例 | 系列文章合集
统计案例 | 系列文章合集1 背景2 统计案例系列文章合集1 背景【统计案例】 系列文章,目的是通过一系列的实际案例(经典统计案例+小编实际参与的数据分析项目)来洞悉这些案例背后所体现的“统计思维”,一方面可以培养自己基于实际案例的统计思维,另一方面对于后续希望从事统计相关工作的同学也会有所裨益(毕竟好的统计思维是通用的),同时,对于之前没有接触过统计学的小伙伴来说,不妨可以算作一个入门读物,因此小编将尽可能用一些简单诙谐的语言进行描述,大家无需有过多压力,轻松的享受统计之美吧~由于统计学知识非常的博
2021-07-09 20:16:38 756
原创 统计案例 | 三门问题
统计案例 | 三门问题一、前言二、背景三、思路1:直观解释四、思路2:列出概率空间与所有事件五、思路3:条件概率法六、思路4:Python模拟七、写在最后一、前言今天小编和各位小伙伴来聊一档综艺节目(最高奖项是汽车一辆……就很刺激……),以及其背后的统计案例—三门问题。二、背景“三门问题”又称蒙提霍尔问题或蒙提霍尔悖论,要讲清楚这个问题,我们首先得从一档综艺节目说起,这档综艺节目同时也是“三门问题”的来源。想象一下在一档综艺节目中,作为参赛者的你会看见三扇关闭了的门,其中一扇的后面有一辆汽车,选中后
2021-07-09 17:19:24 4063 1
原创 统计案例 | 二战时期德军坦克数量的估计?
统计案例 | 二战时期德军坦克数量的估计?一、一则故事二、点估计三、矩估计背后的故事一、一则故事今天小编和各位同学来聊一则故事,在二战时期,西方盟国一直在努力确定德国的生产速度(典型的就是坦克产量),并以两种主要方式得到这个数据:常规情报收集和统计估计。方式一是根据情报人员刺探的消息,这个好理解,各种影视剧中的间谍大家已经司空见惯。根据这种方式得到德军坦克每个月的产量大约有1400辆。(还挺多?)方式二是根据盟军发现和截获的德国坦克数据,用统计分析办法得到。通过根据概率统计推断的方法,预计的数量只有
2021-07-09 17:05:37 5358
原创 统计案例 | 统计数据会说谎?
统计案例 | 统计数据会说谎?一、 前言二、 统计和数学的关系?三、 统计数据会说谎?四、 写在最后—大咖说统计!一、 前言各位小伙伴好,小编在今年将会推出 【统计案例】 系列文章,目的是通过一系列的实际案例(经典统计案例+小编实际参与的数据分析项目)来洞悉这些案例背后所体现的“统计思维”,一方面可以培养自己基于实际案例的统计思维,另一方面对于后续希望从事统计相关工作的同学也会有所裨益(毕竟好的统计思维是通用的),同时,对于之前没有接触过统计学的小伙伴来说,不妨可以算作一个入门读物,因此小编将尽可能用一
2021-07-09 16:54:44 1608
原创 知识图谱 | 系列文章合集
知识图谱 | 系列文章合集1 背景2 文章合集1 背景近半年小编参加了一个知识图谱相关的项目,由于之前并没有知识图谱的相关经验,所以也是从0-1的学习过程,在项目即将进入收尾阶段,自己花了一些时间进行整理和总结,完成了知识图谱的系列文章,包括知识图谱的基础篇、知识图谱存储与可视化篇和知识图谱表示学习篇。2 文章合集知识图谱的基础篇知识图谱存储与可视化篇知识图谱表示学习篇...
2021-07-06 23:23:51 340 2
原创 知识图谱 | 表示学习篇
知识图谱 | 表示学习篇1 知识图谱表示的挑战2 词的向量表示方法3 知识图谱嵌入3.1 概念3.2 优缺点4 知识图谱嵌入方法4.1 转移距离模型—TransE及其变体4.1.1 TransE4.1.2 TransH4.1.3 TransR4.1.4 TransD4.1.5 TransSparse4.1.6 TransM4.1.7 ManifoldE4.1.8 TransF4.1.9 TransA4.2 转移距离模型—高斯嵌入4.2.1 KG2E4.2.2 TransG4.3 其他距离模型4.3.1 非结
2021-06-29 11:22:06 3293
原创 知识图谱 | 存储与可视化篇
知识图谱·存储与可视化篇1 知识图谱基础知识1.1 数据模型1.1.1 RDF图1.1.2 属性图1.2 查询语言2 知识图谱存储方法2.1 基于关系数据库的存储方案2.1.1 三元组表2.1.2 水平表2.1.3 属性表2.1.4 垂直划分2.1.5 六重索引2.1.6 DB2RDF2.2 面向RDF的三元组数据库2.3 原生图数据库2.4 上述三种数据库的比较3 重点介绍Neo4j3.1 Neo4j基础及配置3.2 Neo4j导入数据3.2.1 导入节点3.2.2 导入关系3.2.3 导入关系(含关系的
2021-06-18 10:25:47 3616 2
原创 Python | 一次代码优化的经历
Python | 一次代码优化的经历1 背景2 思路2.1 思路12.2 思路23 具体做法4 合并为一个函数1 背景小编最近在做知识图谱表示学习相关的一个项目,而在结果整理过程中,遇到了一个问题,并自主解决,现通过博客记录一下思考的过程。现在通过知识图谱的表示学习得到了如下结果:即每个字段和对应的向量表示。df_fie_vec 字段序号 字段编号 字段向量表示 0 10
2021-06-14 19:53:26 517 8
原创 知识图谱 | 基础篇
知识图谱·基础篇1 什么是知识图谱?1.1 图形角度1.2 数据角度1.3 技术角度2 知识图谱和机器学习的关系?2.1 部分应用殊途同归2.2 部分应用相结合2.3 过程中可以互为补充3 知识图谱的分类3.1 通用知识图谱和领域知识图谱3.1.1 通用知识图谱(GKG)3.1.2 领域知识图谱(DKG)3.1.3 两者比较3.2 数据知识图谱和规范知识图谱3.2.1 数据知识图谱3.2.2 规范知识图谱4 知识图谱的表示4.1 符号化表示(DKG)4.2 分布式表示(DR)4.3 两者比较5 知识图谱的构
2021-06-06 18:41:37 1952
原创 问卷调查设计以及敏感性问题调查
问卷调查设计以及敏感性问题调查1 问卷调查的目的?2 问卷调查的设计3 什么叫敏感性问题调查?4 敏感性问题调查的方式4.1 方式1:迂回式提问4.2 方式2:问题设置4.3 方式3:随机化回答技术4.3.1 沃纳模型4.3.2 西蒙斯模型5 参考1 问卷调查的目的?首先来看看问卷调查的定义,引自维基百科:问卷调查是对目标对象的意见调查的其中一个方法,问卷调查的形式是由一连串写好的小问题组成,然后去访问,收集被访问者的意见、感受、反应及对知识的认识等。其实做问卷调查大概率是进行抽样调查,抽样即从总体
2020-11-10 14:36:21 7557
原创 统计悖论
统计悖论1 友谊悖论(Friendship Paradox)1.1 文字版1.2 公式版1.3 现实意义2 布雷斯悖论2.1 未开通A》B路线2.2 开通A》B路线2.3 其余布雷斯悖论的例子3 参考最近在学习一个统计学的课程,其中涉及到几个统计悖论,笔者感觉很有意思,特总结一波和大家进行分享~1 友谊悖论(Friendship Paradox)1.1 文字版一个人朋友的数量往往比他朋友的朋友数量要少!比如上图中每个节点代表一个人物,横线表示两者是朋友关系,故各自朋友的数量为:A:1B:3
2020-11-10 09:30:08 1292
原创 Python | KS检验以及其余非参数检验的实现
Python | KS检验以及其余非参数检验的实现1 什么是KS检验2 KS检验分类?3 KS检验的Python实现3.1 检验指定的数列是否服从正态分布3.2 检验指定的两个数列是否服从相同分布4 其余的非参数检验4.1 Wilcoxon符号秩检验(t检验的非参数版本)4.2 Kruskal-Wallis H检验(方差分析的非参数版本)4.3 Mann-Whitney秩检验5 参考1 什么是KS检验定义:检验一个分布f(x)与理论分布g(x)【比如正态分布】是否一致,或两个观测值分布是否有显著差异的检
2020-10-26 15:56:57 15916 6
原创 Python | Bootstrap采样实现
Python | Bootstrap采样实现1 什么是Bootstrap采样2 Bootstrap步骤3 为什么要进行Bootstrap采样4 采样的Python实现4.1 验证样本男女比例是否和总体一致4.2 模拟boostrap5 参考1 什么是Bootstrap采样先来看看维基百科的定义:即Bootstrap的定义是利用有限的样本经由多次重复抽样,建立起充足的样本,在机器学习中解决了样本不足的问题。Bootstrap是非参数统计方法,其实质是对观测信息进行再抽样,进而对总体的分布特性进行统计
2020-10-26 15:05:19 19715 3
原创 中心极限定理的理解
中心极限定理的理解1 背景2 Python模拟中心极限定理2.1 生成总体数据2.2 可视化2.3 抽一组看看2.4 抽很多组看看3 应用3.1 应用1:对于总体的估计3.2 应用2:多场景下统计量的近似使用4 中心极限定理可视化5 参考1 背景统计学上有一个重要的理论,就是中心极限定理,它的定义如下:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-514qxnIY-1603356526721)(attachment:image.png)]下面我们希望直观上来去理解下中
2020-10-22 16:51:30 2132 2
原创 iv值计算(含qcut细节)
iv值计算(含qcut细节)1 背景2 含有重复的数据2.1 数据准备2.2 等频分组2.3 等频分组-加上去掉重复的值3 不含有重复的数据3.1 数据准备3.2 等频分组3.3 等频分组-加上去掉重复值4 iv计算4.1 读入数据4.2 iv值计算4.3 结果分析1 背景在计算woe以及相关的iv值的时候,需要首先对数据进行分箱,分箱一般采用qcut,即等频分组。下面希望验证qcut(等频分组)-相同的值会在一组,即如果一组数据一半都是0,这些会被分在一组。同时计算iv值并进行相关分析2 含有重
2020-10-22 13:07:52 3280
原创 买卖股票的最佳时机及其变形
买卖股票的最佳时机及其变形1 题1:面试题1.1 问题1思路1.2 问题1代码实现1.3 问题2思路1.4 问题2代码实现2 题2:只能完成一笔交易2.1 思路1:暴力解法2.2 思路2:一次遍历3 题3:能完成多笔交易3.1 思路4 参考1 题1:面试题给定一个数字v代表开始有多少钱,一个数组代表股票每天的价格。Q1:请问最多只能买一次、卖一次的情况下,最大化利润是多少?Q2:不限制买卖次数的情况下,利润可以达到多少呢?样例:输入:1000[100,80,120,130,70,60,
2020-10-21 21:06:19 170
原创 Focal Loss原理及实现
Focal Loss原理及实现1 什么是Focal Loss?2 什么场景下用Focal Loss?3 Focal Loss的原理是什么?为什么能解决样本不平衡问题?3.1 交叉熵损失函数binary loss3.2 Focal Loss的改进4 Focal Loss的实现4.1 导入库4.2 切分数据4.3 分训练集和测试集4.4 Focal Loss+Lightgbm5 写在最后6 参考资料1 什么是Focal Loss?最近工作中,Leader让了解一下Focal Loss,尝试解决信贷场景下样本
2020-10-19 15:32:17 6087 3
原创 FM原理及实现
FM原理及实现1 FM是个啥?2 FM的数学原理3 FM特征的实现样例4 FM的代码实现4.1 数据准备4.2 主代码实现4.2.1 安装xlearn4.2.2 拟合模型4.2.3 预测并得到KS值5 FM的优缺点1 FM是个啥?FM模型首先是一个有监督学习方法,主要用在CTR预估上,适用的情形是高维稀疏!优势是可以自动组合交叉特征,替代人工进行特征工程~同时很多场景下FM模型作为一开始的embedding,相比word2vec这样无监督的embedding,基于有监督FM模型的embedding效果
2020-10-14 12:17:18 4358
原创 LGB+LR的实践
文章目录1 背景2 原理3 数据的准备3.1 读入数据3.2 切分训练集测试集4 LR5 LGB6 LGB+LR6.1 LGB实现6.2 LGB的vector导出来!6.2.1 训练集6.2.2 测试集6.3 LR+LGB7 结果对比1 背景相信大名鼎鼎的GBDT+LR组合很多小伙伴都听过,这种组合模型的预测效果要比单模型要好,但之前一直没有亲自实践过,最近刚好公司一个项目用到了,故抓紧时间总结一波~2 原理简单来说就是首先用树模型(GBDT、Xgboost、Lightgbm)来预测样本结果,然后将
2020-10-11 20:59:38 3874 4
原创 Python | 含多个未知参数方程的曲线绘制
Python | 含多个未知参数方程的曲线绘制1 背景2 代码解决3 参考1 背景前几天,一位高中同(ji)学(you)给我发来一个问题,具体见下面图片:上述除了Vo和fu,其余字母均已知,而且fu并不是u的函数,就是一个符号。现在的问题是希望得到Vo和fu的关系:最简单的方法当然是直接解出Vo=XXXfu,即类似于y=f(x),但是上述方程过于复杂,无法直接求解得到,或者说很难得到!那具体该如何处理呢?退而求其次,我不需要求出两者具体的一个关系,而是直接画出图像来,通过图形直观得出两者关
2020-08-09 23:23:13 2788 1
原创 深度学习 | Word2vec原理及应用
聊聊Word2vec1 前言2 什么是Word2vec?2.1 定义2.1.1 分词的原理介绍2.1.2 文本向量化的方式2.2 数学原理2.2.1 CBOW(Continuous Bag-of-Words)原理2.2.2 Skip-Gram原理2.2.3 为什么要有Word2vec 而不是用原来的?2.2.4 Word2vec基础:霍夫曼树2.2.5 Hierarchical Softmax2....
2020-06-17 23:43:19 3724
原创 Python | 记一次模型上线的惨痛教训
记一次模型上线的惨痛教训前言演示代码背景需要完成的任务bug浮出水面写在最后-Python如何学习前言最近两周一直在忙导师那边一个项目,进展到最后一步模型上线了,但花了2周多才搞定,其中一个原因是代码中有一个bug,导致模型结果一直和之前小样本测试差距较大,经过项目组小伙伴们的一起努力,终于找到了这个很”狡猾"的bug,故总结并和大家进行分享(由于这两周工作强度太大,很多天工作到深夜实在没有精...
2020-03-27 22:44:49 806
原创 剑指offer | 数组问题汇总
数组问题汇总1 前言2 题目2.1 调整数组顺序使奇数位于偶数前面2.1.1 思路12.1.2 代码12.1.3 思路22.1.4 代码22.2 数组中出现次数超过一半的数字2.2.1 思路12.2.2 代码12.2.3 思路22.2.4 代码21 前言2 题目2.1 调整数组顺序使奇数位于偶数前面输入一个整数数组,实现一个函数来调整该数组中数字的顺序,使得所有的奇数位于数组的前半部分,...
2019-09-07 02:15:16 534
原创 机器学习 | Faiss实现
Faiss原理及实现1 前言2 什么是Faiss2.1 为什么会出现Faiss?2.2 Faiss的优点2.3 Faiss组件2.3.1 索引Index2.3.2 索引Index选择的原则2.4 优化方法:单元-探测(Cell-probe) 方法3 Faiss的Python实现3.1 导入库3.2 准备数据3.3 创建索引(Index)3.4 查找相似向量3.5 加速搜索3.6 减少内存3.7 G...
2019-08-20 02:10:27 5742
原创 Redis | Redis入门
Redis入门看这篇就够了!1 前言2 什么是Redis?2.1 定义2.2 为什么要用Redis?2.3 Redis应用场景3 如何在Linux环境安装Redis?3.1 为什么要在Linux环境安装Redis客户端?3.2 如何安装?4 Redis相关命令4.1 查看所有的keys4.2 得到Key对应Value的值4.3 随机得到一个key4.4 设置一个key-value4.5 连接Red...
2019-08-18 00:40:16 609
原创 Linux | 常用命令
Linux常用命令1 前言2 Linux常见命令2.1 查看配置2.2 看文件夹情况2.3 配置vim+使用2.4 scp拷贝+查看当前路径位置2.5 复制粘贴快捷键2.6 使用xshell上传下载文件2.7 下载一个文件-get2.8 查看文件的前n行2.9 神器 tmux2.10 多个文件打包+解压2.11 查看现在运行情况2.12 统计一个文件有多少行-wc2.13 查看linux磁盘+某...
2019-08-17 11:18:43 559
原创 剑指offer | 链表问题汇总
链表问题汇总1 前言2 题目题1 链表中倒数第k个结点1 前言2 题目题1 链表中倒数第k个结点输入一个链表,输出该链表中倒数第k个结点。思路:如果输出链表正向的第k个结点会吗?应该会的!那么再得到长度,一减,就ok了啊!但是上面思路太麻烦,有一个非常牛逼的思路!牛逼思路:我们可以定义两个指针。第一个指针从链表的头指针开始遍历向前走k-1,第二个指针保持不动;从第k步开...
2019-08-02 14:58:32 781
原创 机器学习 | 最大熵模型
什么是最大熵模型?1 前言2 什么是最大熵模型?2.1 通俗解释3 最大熵模型的应用场景4 模型优缺点参考1 前言继续梳理李航老师《统计学习方法》的章节内容,今天我们一起来看一看啥叫最大熵模型?2 什么是最大熵模型?2.1 通俗解释首先来看看吴军老师的《数学之美》书中对于最大熵模型的通俗解释。一句话概括:不要把鸡蛋放到一个篮子里!保留全部的不确定性,将风险降到最小,此时对应的熵最大...
2019-07-26 10:54:22 1611 1
转载 【转载】LaTeX 各种命令和符号
LaTeX 各种命令,符号前言前言在别人博客看到特别好的介绍LaTeX 各种命令,符号,而自己又经常需要查阅,所以转载过来到自己的博客以便自己后续学习!特别好的整理!再次感谢博主!(同时也是自己第一篇转载的文章hhh) ...
2019-07-25 21:50:45 2905
原创 面试题 | 帽子问题
一道有意思的帽子问题1 前言2 问题及答案2.1 问题2.2 解答2.3 补充参考1 前言在公众号【程序员小灰】那看到一道有意思的概率问题,觉得挺好玩,可以开拓思路~而且和之前写的博客中的一个囚徒困境题貌似有点关系?故总结一波。2 问题及答案2.1 问题有5顶帽子
2019-07-25 18:16:12 3351
原创 剑指offer | 5题
题1:重建二叉树题目:输入某二叉树的前序遍历和中序遍历的结果,请重建出该二叉树。假设输入的前序遍历和中序遍历的结果中都不含重复的数字。例如输入前序遍历序列{1,2,4,7,3,5,6,8}和中序遍历序列{4,7,2,1,5,3,8,6},则重建二叉树并返回。思路:重建二叉树返回的结果是依次打印出二叉树的根节点,肯定要用到递归的思想先根据前序list找到根节点以及其索引然后在前序和...
2019-07-25 12:05:58 297
原创 机器学习 | SVD分解
什么是SVD分解?1 前言2 SVD的来龙去脉2.1 概念2.2 为什么要做特征值分解以及为什么会出现SVD?2.3 SVD的原理2.3.1 完全奇异值分解过程2.3.2 部分奇异值分解3 SVD的举例4 SVD的应用5 SVD的优缺点1 前言经常看到SVD奇异值分解,但一直没有去了解它讲的什么,刚好在李航老师统计学习方法第二版上是单独的一章,下面看了一些博客总结一下~2 SVD的来龙去脉...
2019-07-24 22:21:25 1752
原创 R | 常用函数-2
常用R函数-21 前言2 常用函数2.1 看变量的类型 mode2.2 dataframe根据某一列进行降序/升序排列 order2.3 字符串拼接 paste2.4 判断向量中是否存在一个元素 %in%2.5 缺失值相关函数2.6 判断两列是否完全一样——identical2.7 取消科学计数法,用原始数据的方式——options2.8 删空格-某列字符删去多余的空格-str_trim2.9 查...
2019-07-24 02:29:44 388
原创 R语言 | 记一次用R语言进行数据分析的经历
利用R语言进行数据分析1 前言2 问题及解决思路和代码2.1 问题1:逻辑判断生成新变量2.1.1 问题描述2.1.2 规则2.1.3 对应的R语言基础2.1.4 伪代码2.1.5 真正的实现2.1.6 分组计算得结果2.2 问题2:正则提取特征+绘制对比箱线图2.2.1 问题描述参考1 前言最近无论是实习还是做项目,更多的都是使用Python来做一些分析,建模的工作,最近刚好用到R语言来解决...
2019-07-24 00:46:38 5627 1
原创 机器学习 | GBDT+XGBoost知识补充及梳理
GBDT+XGBoost知识补充及梳理1 前言2 面试被问到的相关点参考1 前言2 面试被问到的相关点参考
2019-07-23 22:10:10 1844
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人