- 博客(450)
- 资源 (5)
- 收藏
- 关注

原创 到此一游︱2022 Google 开发者大会
谷歌在机器学习产品生态研发上,解构了整个机器学习流程,使其产品化,每一位开发者像搭积木一样的快速使用。
2022-09-20 21:11:32
739
1

原创 因果推断与反事实预测——利用DML进行价格弹性计算(二十四)
文章目录1 导言1.1 价格需求弹性介绍1.2 由盒马反事实预测论文开始1.3 DML - 价格弹性预测推理步骤2 案例详解2.1 数据清理2.2 [v1版]求解价格弹性:OLS回归2.3 [v2版]求解价格弹性:Poisson回归+多元岭回归2.4 [v3版]求解价格弹性:DML2.4.1 DML数据准备 + 建模 + 求残差2.4.2 三块模型对比2.4.3 稳健性评估1 导言1.1 价格需求弹性介绍经济学课程里谈到价格需求弹性,描述需求数量随商品价格的变动而变化的弹性。价格一般不直接影响需求,
2022-01-04 18:49:51
5415
8

原创 A/B Test︱一轮完美的A/B Test 需要具备哪些要素
文章目录1 A/B Test 实验的业务意义2 相关概念理解2.0 AB实验2.1 AA分组 —— 更好筛选样本2.2 混杂因素2.3 根据实验种类分类2.4 互斥实验2.5 流量正交&正交实验2.6 分层原则2.7 灰度发布2.8 留存率2.9 统计 假设检验2.10 p-value2.11 校验灵敏度MDE3 AB test完整流程3.1 完美的 ABTest的流程是什么?3.2 样本量选择3.3 如何确定实验需要多少天?4 A/B TEST 合理的分组4.1 CR - 完全随机分组**CR(C
2021-12-10 16:50:59
7533
1

原创 因果推断笔记——数据科学领域因果推断案例集锦(九)
2 腾讯看点:视频笔记2.1 观测数据 、 实验数据的理论介绍
原创 生存分析——跟着lifelines学生存分析建模(三)
文章目录数据分析系列:生存分析(生存曲线分析、Cox回归分析)——附生存分析python代码。数据分析系列:归因分析原理、案例(附python代码)lifelines
2021-07-26 18:38:17
3577
1

原创 机器学习模型可解释性进行到底 —— SHAP值理论(一)
最近在系统性的学习AUTOML一些细节,本篇单纯从实现与解读的角度入手,因为最近SHAP版本与之前的调用方式有蛮多差异,就从新版本出发,进行解读。不会过多解读SHAP值理论部分,相关理论可参考:关于SHAP值加速可参考以下几位大佬的文章:文章目录1 介绍2 可解释图2.1 单样本特征影响图1 介绍文章可解释性机器学习_Feature Importance、Permutation Importance、SHAP来看一下SHAP模型,是比较全能的模型可解释性的方法,既可作用于之前的全局解释,.
2021-04-07 17:14:22
37017
23
原创 Stable-Diffusion|window10安装GPU版本的 Stable-Diffusion-WebUI遇到的一些问题(一)
具体记录一下笔者除了按照上述教程,遇到坑的地方。
2023-06-04 12:13:04
442
原创 如何用VOSviewer Online想画啥就画啥(配合python+networkX)
VOSviewer一直都是学术界文献可视化的神器,不过貌似很少看有人来DIY,随意画东西。那笔者花了点时间测试了一下,发现【VOSviewer Online + networkX/python】可以极快的画出好看的网络关系图。
2023-03-24 10:17:33
267
原创 python和netlogo软件模拟病毒传播仿真模型(一)
目前国内在网络舆情仿真建模中所使用的仿真平台主要有 Netlogo、Anylogic、Matlab、Vensim 等,netlogo软件是一款比较通用的。但是他是由logo语言构成,语言逻辑很让人抓马。
2023-01-19 14:20:12
1854
原创 语音识别系列︱利用达摩院ModelScope进行语音识别+标点修复(四)
魔搭社区首批开源模型超过 300 个,包括视觉、语音、自然语言处理、多模态等 AI 主要方向,并向 AI for Science 等新领域探索,覆盖的主流任务超过 60 个。
2022-11-13 16:42:25
2170
原创 语音识别系列︱paddlespeech的开源语音识别模型测试(三)
上一篇paddlehub是一些预训练模型,paddlespeech也有,所以本篇就是更新paddlespeech里面的模型。
2022-10-07 23:31:23
3953
3
原创 语音识别系列︱paddlehub的开源语音识别模型测试(二)
这一篇开始主要是开源模型的测试,百度paddle有两个模块,paddlehub / paddlespeech都有语音识别模型,这边会拆分两篇来说。
2022-10-07 17:10:16
1556
原创 python | prophet的案例实践:趋势检验、突变点检验等
5年前prophet刚出来的时候试用过R版本的prophet:R+python︱Facebook大规模时序预测『真』神器——Prophet(遍地代码图)现在最近的一些研究涉及时序数据,所以回来再看看python版本的。参考官方文档:Trend Changepoints怎么训练出一个NB的Prophet模型根据官方简单改编的:其中关于改变点有几个参数:growth是指模型的趋势函数,目前取值有2种,linear和logistic,分别如图1-1及图1-2所示。趋势会在changepoint处出现突变点。
2022-07-03 12:35:20
3016
1
原创 笔记 | 不规则波动的时间序列数据处理与关联模型小结
关于时序数据的关联模型,笔者陆陆续续更新了一些,包括了,传统的时序模型学习statsmodels︱python常规统计模型库python实现logistic增长模型还有两款ML上面的prophet + kats:R+python︱Facebook大规模时序预测『真』神器——Prophet(遍地代码图)Kats时间序列开源库的使用笔记还有总结帖:回顾︱时间序列预测与分解有哪些模型?(一)其中statsmodels 包含:那么能够处理那种比较不规则波动时序的,常见有:ARMA,autoregre
2022-07-01 11:23:59
894
原创 坑挺多 | 联邦学习FATE:训练模型(二)
本篇参考:pipeline_tutorial_hetero_sbt上一篇为:坑挺多 | 联邦学习FATE:上传数据(一),我们继续来看看这个教程里面的大坑。直接给结论好了:你需要确保,初始化的网络 与 设置的guest网络,一致才能跑通。不然可能报错:或者:一直卡在uploading或者2 纵向案例一:分类模型-HeteroSecureBoost代码官方所有案例数据可参考:examples/data上传数据:这里上传需要不同的数据分开上传,不过笔者偷懒,两个服务器所有host/guest数
2022-06-19 14:20:54
1365
2
原创 笔记︱盘点实验科学的三种实验模型(A/B实验、因果推断、强化学习)
文章目录1 A/B实验1.1 优点1.2 缺点1.3 使用场景2 因果推断2.1 优点2.2 缺点2.3 使用场景2.4 一些大厂方法论的总结3 多臂老虎机Bandit3.1 优点3.2 缺点3.3 使用场景1 A/B实验1.1 优点通过流量细分可以同时追踪多个指标的变化趋势A/B测试的解释性更好,适用于获得各个版本的优劣的统计置信(statistical significance)。需要知道当前版本相对于base的各个指标如何变动、置信水平有多大、什么因素影响了指标变动。这些关于因素的分析可以
2022-05-30 17:25:42
1441
1
转载 转载 | Python中多层List展平为一层
参考:Python中多层List展平为一层使用Python脚本的过程中,偶尔需要使用list多层转一层,又总是忘记怎么写搜索关键词,所以总是找了很久,现在把各种方法记录下来,方便自己也方便大家.方法很多,现在就简单写8种,后面再对这8种方法做基准测试.声明:文中的方法均收集自Making a flat list out of list of lists in Pythonimport functoolsimport itertoolsimport numpyimport operatori
2022-05-10 11:37:01
838
原创 笔记︱目标人群优选的Look-aLike Modeling案例集锦
如果把广告主圈出来的那 10w 用户称为种子用户(「seed users」),那么我们可以把需要额外提供的一批相似的用户称之为 「look-alike users」。我们把这种基于种子用户进行相似人群扩展的过程称之为 「look-alike modeling」。所以,look-alike 并不是某种特定的算法,而是一类建模方法的统称。笔者自己总结比较常规的技术路线是四条:TGI的标签扩散方案,基本可以不用算法,通过数据统计就可以;而且可以往:相关品类/竞品/品牌/搜索/流失人群等扩散优势:逻辑简单
2022-05-08 20:45:46
2538
原创 智慧供应链的学习笔记(库存管理、配补货、仓间调拨、控制塔等)
文章目录1 供应链集成系统案例1.1 京东物流一体化供应链1.1.1 算法中台1.1.2 易卜工程化平台1.2 美团:到店供应链及商品平台建设实践2 市面上的供应链解决方案2.1 京慧系统——成熟的企业级客户服务系统2.2 菜鸟网络全套数智化供应链解决方案2.2.1 智能选品2.2.2 联合预测2.2.3 补货分仓2.2.4 一些案例介绍:2.3 得体科技——面向服装行业,打造一站式柔性供应链平台2.4 数势科技:Supply Force智慧供应链平台2.5 杉数科技2.6 顺如丰来2.7 华为云:供应链灵
2022-05-05 22:03:15
9711
1
原创 笔记 | 数据分析产品未来范式的小结(增强分析、智能交互等)
笔者之前就看到过增强分析这个概念,只不过没有特意留意,最近也是在总结一些手边工作,通过观察了一些技术部门关于数据分析产品的设计思路,笔者觉得增强分析这个概念背后的趋势,确实是现在很多数据分析类产品的趋势。1 数据分析 -> 数据产品的意义2+4+8谷维:快手如何提升数据化管理效率?数据分析和数据产品是提升管理效率的两个重要的能力。接下来,从数据分析和数据产品两个角度介绍一下,如何提升数据化管理效率?1.1 数据分析:要从业务中来,到业务中去只有将业务目标进行拆解,数据量化才会更贴近业务,
2022-05-03 21:10:16
2642
原创 活动、节假日、促销等营销方式的因果效应评估——方法模型篇(二)
笔者近两年都在做智能营销方面的探索,不过最近想稍微切换自己的研究赛道,所以最近想把智能营销方面细枝末节的一些思考发出来。关于活动、节假日、促销等营销方式的因果效应评估前篇是《活动、节假日、促销等营销方式的因果效应评估——特征工程篇(一)》是把给入模型时特征加工的方式列举一下,本篇是想简单总结如何评价一个活动营销方式的好坏;当然方法本身不胜枚举,只能在有限视野里面进行归纳。1 回归的方法活动评价,与笔者之前思考的一个点也是有些共同的《数据科学之 如何找到指标的最 佳分裂点的几个想法》最佳分裂点其实就是
2022-05-01 15:58:32
1713
原创 活动、节假日、促销等营销方式的因果效应评估——特征工程篇(一)
本系列旨在挖掘活动、节假日、促销、优惠券、积分等营销权益因果效应评估,目前规划两个篇幅:第一篇:会收集活动、节假日、促销等营销权益在做一些建模项目中,可以构造成为的特征工程方式第二篇:使用各类模型、方法总结这些营销方式的几种效应评估方法更多是文献整理,主要集中在预测类模型 - 营销方式入模的特征工程文章目录1 活动类特征工程1.1 [竞赛] Corporación Favorita Grocery Sales Forecasting1.22 优惠券类2.1 天池新人实战赛o2o优惠券使用预测2
2022-04-28 21:20:14
1526
原创 Transformer、BERT等模型学习笔记
记录一下刷B站教学视频的一些笔记,目前主刷:李沐老师的【跟李沐学AI】公众号-【NLP从入门到放弃】 的视频文章目录1 Transformer从零详细解读(可能是你见过最通俗易懂的讲解)1.1 整体结构1.2 encoder部分1.2.1 输入部分1.2.2 多头注意力机制1.2.2.1 注意力机制原理1.2.2.2 QKV的获取方式1.2.3 残差1.2.3 layer norm 与BN的差异1.2.4 前馈神经网络1.3 Decoder1.3.1 masked1.3.2 新增的多头注意力机制
2022-03-20 23:38:13
1494
原创 航拍+AI︱paddlepaddle图像分割实现天空风格迁移(换天、漂浮城堡、宇宙飞船)
1 介绍环节昨天那篇写的是:航拍+AI︱极简的视频风格迁移体验是把航拍的风景图进行整体的风格迁移,不过从成片效果来看,太过于超现实。本篇是想考量局部的风格迁移,使用的是paddlepaddle开源的一款模型,PaddleHub 中的SkyAR,源教程为:SkyAR:一键完成视频魔法换天,不得不说,paddle开源了很多有意思的项目,值得玩一下。先来看看,SkyAR可以实现的效果原视频图:改编视频图:SkyAR 是一种用于视频中天空置换与协调的视觉方法,该方法能够在风格可控的视频中自动
2022-02-13 22:01:00
2084
原创 航拍+AI︱极简的视频风格迁移体验
五年前,玩过很简单的风格迁移:迁移学习︱艺术风格转化:Artistic style-transfer+ubuntu14.0+caffe(only CPU)加上最近有点想买个无人机,所以先打个样,看看无人机+AI的一些合成效果。文章目录1 下载一个b站航拍视频2 风格迁移3 效果4 后续的想法1 下载一个b站航拍视频因为无人机还没到。。估计到了,也要很久才能拍得出像样的,所以只能盗视频来试玩了,使用的是开源项目:BBDown一款命令行式哔哩哔哩下载器. Bilibili Downloader
2022-02-12 16:40:45
2536
原创 torch的使用笔记
1 安装篇参考:[开发技巧]·PyTorch如何使用GPU加速(CPU与GPU数据的相互转换)安装可以在官方参考代码,最好使用condahttps://pytorch.org/get-started/locally/conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch检测是否可以使用GPU,使用一个全局变量use_gpu,便于后面操作使用use_gpu = torch.cuda.is_availabl
2022-02-11 23:35:02
249
原创 Kats时间序列开源库的使用笔记
1 Kats的千辛万苦安装之路不知道是不是笔者的window笔记本的问题,按照kats出现的很多问题安装Kats时候,会报错:error: Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools": https://visualstudio.microsoft.com/visual-cpp-build-tools/一般是按照prophet的时候会出现:其实是可以 直接跳过
2022-01-25 15:42:55
2645
原创 因果推断与反事实预测——几篇关联论文(二十六)
有几篇关联的论文,如果论文开源代码了,笔者比较喜欢读+code练习,所以看这类文献比较慢,先Mark再精读了…文章目录1 Auto IV: Counterfactual Prediction via Automatic Instrumental Variable Decomposition2 ICML & UBC|Deep IV: A Flexible Approach for Counterfactual Prediction3 Double Robust Representation Le.
2022-01-13 11:02:44
3188
原创 因果推断——借微软EconML测试用DML和deepIV进行反事实预测实验(二十五)
文章目录1 导言1.1 KDD2021:盒马-融合反事实预测与MDP模型的清滞销定价算法1.2 本篇想法2 代码2.1 数据生成2.2 DML模型:有干预下的Y增量2.3 Tree-based模型2.4 deepIV训练与预测2.5 结果比较2.6 短期小结1 导言1.1 KDD2021:盒马-融合反事实预测与MDP模型的清滞销定价算法本篇想法来源:因果推断与反事实预测——盒马KDD2021的一篇论文(二十三)盒马论文提到了论文模型:半参数模型,上图是顺着使用数据的比例增加三个模型的RMAE,
2022-01-08 22:37:38
2754
1
原创 因果推断与反事实预测——盒马KDD2021的一篇论文(二十三)
参考:KDD2021论文推荐:盒马-融合反事实预测与MDP模型的清滞销定价算法Markdowns-in-E-Commerce-Fresh-Retail-A-Counterfactual-Prediction-and-Multi-Period-Optimization-Approach利用机器学习因果推理进行弹性定价数据分析36计(29):价格需求弹性和因果推断简单版:DML.ipynb数据集:Association Rules and Market Basket Analysis论文地址:h
2022-01-02 22:19:04
5164
3
Rstudio Server + Docker + tensorflowR的dockerfile文件
2018-09-28
word2vec自编译函数(By Jian Li,2014-09-21)
2016-05-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人