机器学习︱R+python
文章平均质量分 94
悟乙己
心如花木,皆向阳而生!
展开
-
阿里云Dataphin中如何使用python写代码
dataphin中如何写python以及一些坑点的介绍原创 2024-03-27 18:21:52 · 851 阅读 · 1 评论 -
PyInstaller打包python程序为exe可执行文件
pyinstaller打包教程原创 2023-11-25 21:56:34 · 353 阅读 · 0 评论 -
盘点 三款高可用的机器学习模型 web页面化的工具(一)
盘点 三款高可用的机器学习模型 web页面化的工具原创 2022-11-20 15:40:08 · 2637 阅读 · 0 评论 -
python | prophet的案例实践:趋势检验、突变点检验等
5年前prophet刚出来的时候试用过R版本的prophet:R+python︱Facebook大规模时序预测『真』神器——Prophet(遍地代码图)现在最近的一些研究涉及时序数据,所以回来再看看python版本的。参考官方文档:Trend Changepoints怎么训练出一个NB的Prophet模型根据官方简单改编的:其中关于改变点有几个参数:growth是指模型的趋势函数,目前取值有2种,linear和logistic,分别如图1-1及图1-2所示。趋势会在changepoint处出现突变点。原创 2022-07-03 12:35:20 · 4708 阅读 · 1 评论 -
笔记 | 不规则波动的时间序列数据处理与关联模型小结
关于时序数据的关联模型,笔者陆陆续续更新了一些,包括了,传统的时序模型学习statsmodels︱python常规统计模型库python实现logistic增长模型还有两款ML上面的prophet + kats:R+python︱Facebook大规模时序预测『真』神器——Prophet(遍地代码图)Kats时间序列开源库的使用笔记还有总结帖:回顾︱时间序列预测与分解有哪些模型?(一)其中statsmodels 包含:那么能够处理那种比较不规则波动时序的,常见有:ARMA,autoregre原创 2022-07-01 11:23:59 · 1555 阅读 · 0 评论 -
Kats时间序列开源库的使用笔记
1 Kats的千辛万苦安装之路不知道是不是笔者的window笔记本的问题,按照kats出现的很多问题安装Kats时候,会报错:error: Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools": https://visualstudio.microsoft.com/visual-cpp-build-tools/一般是按照prophet的时候会出现:其实是可以 直接跳过原创 2022-01-25 15:42:55 · 3150 阅读 · 0 评论 -
数据科学之 如何找到指标的最 佳分裂点的几个想法
影响整体用户活跃度,的因素中有单次打开时长这一指标,如何找到打开多久是比较好的阈值?原创 2021-12-06 18:15:25 · 1769 阅读 · 2 评论 -
笔记︱统计评估指标AUC 详解
文章目录1 AUC的两种解读视角:1.1 ROC曲线与坐标轴形成面积1.2 古典概率模型——求导AUC2 AUC的特性与优劣3 AUC多大才算好?4 线上、线下AUC差异较大成因分析4.1 业务场景使用AUC:点击模型与购买模型的差异4.2 线上、线下AUC有差异5 AUC逻辑升级 - GAUC参考文献1 AUC的两种解读视角:1.1 ROC曲线与坐标轴形成面积AUC 的全称是 AreaUnderRoc 即 Roc 曲线与坐标轴形成的面积,取值范围 [0, 1].Roc (Receiver ope原创 2021-09-25 11:41:04 · 11913 阅读 · 0 评论 -
决策树以及XGBoost 树分裂图的多种可视化工具盘点
之前有专门研究过,在各自的文中,这里进行罗列:文章目录1 pydotplus安装2 XGBoost画出分裂图3 决策树画出分裂图1 pydotplus安装文档:PyDotPlus Homepage如果要画出决策树图,一般需要该库,需要先下载:http://www.graphviz.org/download/然后记住下载的路径,pip install pydotplus就可以按下面使用了:import osos.environ["PATH"] += os.pathsep + 'C:\原创 2021-07-30 18:17:37 · 5964 阅读 · 0 评论 -
评分卡应用 - 利用Toad进行有监督分箱(卡方分箱/决策树分箱)
toad是针对工业届建模而开发的工具包,针对风险评分卡的建模有针对性的功能。toad持续更新优化中,本教程针对toad的各类主要功能进行介绍,包括:EDA相关功能如何使用toad高效分箱并进行特征筛选WOE转化逐步回归特征筛选模型检验和评判标准评分卡转化和输出其他功能中文教程:toad使用教程文章目录1 Toad — EDA 工具2 变量的iv值 —— quality2.1 IV值解读2.2 toad.quality3 如何使用toad高效分箱并进行特征筛选4 toad分箱5 观原创 2021-07-30 17:57:03 · 8002 阅读 · 3 评论 -
简单实践GraphEmbedding图嵌入的几种方法
参考:详解Graph Embedding经典方法:算法原理、代码实现与应用样例Graph Embedding 图表示学习的原理及应用代码参考:https://github.com/shenweichen/GraphEmbedding本篇简单测试一下该库文章目录1 Graph Embedding 几种常见方法1.1 DeepWalk1.2 LINE1.3 nodo2vec1.4 SDNE1.5 Struc2Vec2 实验代码1 Graph Embedding 几种常见方法Mod原创 2021-07-14 18:41:28 · 1874 阅读 · 0 评论 -
多渠道归因分析(Attribution):用attention-RNN来做归因建模(附代码demo)(五)
论文可参考18年的一篇:Deep Neural Net with Attention for Multi-channel Multi-touch Attribution官方:channel-attribution-model我把可以跑通demo代码放在自己的github之中:mattzheng/Attention-RNN-Multi-Touch-Attribution一种基于注意力的循环神经网络多点触摸归因模型,以监督学习的方式预测一系列事件是否导致转换(购买)。模型可以输出不同节点的重要性(LS原创 2021-07-05 23:50:37 · 2884 阅读 · 2 评论 -
多渠道归因分析:互联网的归因江湖(二)
在公众号【PMCoder之路】看到互联网归因用法上的一些有趣案例,搬运一些案例。1 互联网归因的江湖混战(一)2 不懂归因,也许你广告还没入门3 互联网归因混战江湖(二)—应用归因详细说明4 APP归因科普:归因核心关键——用户ID详解5 【再说广告归因】强行将“助攻”算做“直接得分”,还要不要脸?6「IOS广告归因」匹配式归因,链路式归因以及IOS SKAdNetwork归因说明(一)7 【又说广告归因】有效触点归因能推广开的原因分析1 Facebook Audience Network转载 2021-05-26 16:11:22 · 2984 阅读 · 0 评论 -
多渠道归因分析(Attribution):传统归因(一)
文章目录1 归因分析2 传统归因分析方法2.1 传统归因分析2.2.1 最终互动归因模型2.2.2 最终非直接点击归因模型2.2.3 最终AD点击归因2.2.4首次互动归因2.2.5 线性归因模型2.2.6 时间衰减归因模型2.2.7 位置归因模型2.2.8 自定义归因模型2.2.9 马尔科夫归因模型2.2 不同归因方法的使用场景3 渠道权重几种计算方法3.1 夏普里值(Shapley Value)3.2 生存分析方法(Survival Analysis)3.3 路径分析(Path Analysis)3.原创 2021-05-26 15:55:59 · 13417 阅读 · 2 评论 -
python实现logistic增长模型、多项式模型
1 J型增长和S型增长指数增长,J型曲线:指数增长,即增长不受抑制,呈爆炸式的。比如一个人可以传染三个人,三个人传染九个人,九个人传染27个人,不停的倍增。这就是J型增长,也叫指数型的增长。一些传染病初期可能呈现指数增长。但是实际的增长过程中,增长速率并不能一直维持不变,随着人数的不断增多,增长率会逐渐受到抑制。这就是S型增长。一般疾病的传播是S型增长的过程,因为疾病传播的过程中会受到一定的阻力。2 logistic增长函数当一个物种迁入到一个新生态系统中后,其数量会发生变化。假设该物种的起始转载 2021-05-10 18:11:59 · 9479 阅读 · 2 评论 -
用户增长——CLV用户生命周期价值CLTV 笔记(一)
文章目录1 概念介绍1.1 概念介绍1.2 关联指标1.3 计算方式1.4 LTV的价值1.5 应用场景1.5.1 宏观方面的几个场景:1.5.2 一个细分的金融场景:1.5.3 预估成本回收期1.5.4 判定渠道质量1.5.5 支持产品运营1.5.6 UE计算2 不同LTV计算方式2.1 几种常见的计算方式2.1.1 LT*活跃ARPU2.1.2 依据交易预测2.1.3 历史LTV拟合预测2.2 常规LT*ARPUDAU的延申:广告收入类型产品计算2.3 APP类LTV运营流程3 关联问题3.1 多长时间原创 2021-05-10 16:26:50 · 11438 阅读 · 1 评论 -
最优解问题——PuLP解决线性规划问题(一)
文章目录1 PuLP介绍1.1 理论、流程介绍1.2 主函数介绍1.2.1 LpProblem类1.2.2 LpVariable类1.2.3 lpSum(vector)1.3 一些函数写法优化1.3.1 赋值1.3.2 PuLP里面不可使用的案例一:优化投放广告渠道的资源案例二:如何分配水库供水量,公司才能获利最多案例三: 求解最普通的线性规划问题案例四:运输问题案例五:指派问题1 PuLP介绍1.1 理论、流程介绍线性规划是研究线性约束条件下线性目标函数的极值问题的数学理论和方法。Pytho.原创 2021-04-29 18:48:53 · 9068 阅读 · 9 评论 -
用户增长 - BG/NBD概率模型预测用户生命周期LTV(二)
文章目录1 BG / NBD概率模型介绍1 BG / NBD概率模型介绍数据运营36计(六):BG/NBD概率模型预测用户生命周期LTV,Python实现BG/NBD模型又称为贝塔几何/负二项模型。他是基于Pareto/NBD模型假设设计的概率预测模型。BG/NBD模型是用于描述非契约客户关系情境下重复购买行为。即用户可以随时购买产品,无时间约束。该模型可利用用户历史交易数据(RFM)来预测未来每个用户的交易次数和流失率该模型的几个假设前提:(1)【交易假设】用户在活跃状态下,一个用户在原创 2021-04-22 18:00:48 · 6041 阅读 · 1 评论 -
机器学习模型可解释性进行到底——特征重要性(四)
文章目录1 四种全局可解释的方法论1.1 过滤法1.1.1 方差过滤方差过滤1.1.2 相关性过滤1.2 嵌入法1.2.1 SelectFromModel - 筛选特征1.2.2 PermutationImportance - 排列重要性1.3 包装法1.4 几种方法对比1.5 额外的交叉特征筛选模型:AutoFIS2 SHAP(SHapley Additive exPlanation)2.1 SHAP 与 Permutation importance 的差异2.2 特征归因的一致性2.2.1 树模型原创 2021-04-13 22:28:58 · 7391 阅读 · 1 评论 -
机器学习模型可解释性进行到底 ——PDP&ICE图(三)
之前两篇有专门介绍shap值,可以说非常好用,机器学习模型可解释性进行到底 —— 从SHAP值到预测概率(二)机器学习模型可解释性进行到底 —— SHAP值理论(一)文章目录1 部分依赖图(Partial Dependence Plot)1.1 理论解读1.2 如何根据PDP 进行特征筛选2 个体条件期望图(Individual Conditional Expectation Plot)3 sklearn 0.24+实现:PDP&ICE图3.1 部分依赖图(Partial Dependen原创 2021-04-13 16:36:37 · 10136 阅读 · 4 评论 -
机器学习模型可解释性进行到底 —— 从SHAP值到预测概率(二)
第一篇主要把SHAP值的各类图表操作方式进行展示:机器学习模型可解释性进行到底 —— SHAP值理论(一)接下来主要围绕一篇文章的内容展开【黑盒模型实际上比逻辑回归更具可解释性】源代码部分:smazzanti/tds_black_box_models_more_explainable自己的测试代码:mattzheng/ml_interpretability非常有意思的一个案例,里面把SHAP值的解释性又增强了一步。SHAP值对于人类来说是不可理解的(即使对于数据科学家来说也是如此),概率的概念要原创 2021-04-12 18:46:54 · 6977 阅读 · 3 评论 -
机器学习模型可解释性进行到底 —— SHAP值理论(一)
最近在系统性的学习AUTOML一些细节,本篇单纯从实现与解读的角度入手,因为最近SHAP版本与之前的调用方式有蛮多差异,就从新版本出发,进行解读。不会过多解读SHAP值理论部分,相关理论可参考:关于SHAP值加速可参考以下几位大佬的文章:文章目录1 介绍2 可解释图2.1 单样本特征影响图1 介绍文章可解释性机器学习_Feature Importance、Permutation Importance、SHAP来看一下SHAP模型,是比较全能的模型可解释性的方法,既可作用于之前的全局解释,.原创 2021-04-07 17:14:22 · 58240 阅读 · 26 评论 -
Python实现主成分分析(PCA)降维:原理及实例分析
转载文章:Python实现主成分分析(PCA)降维:原理及实例分析简介降维是由一些问题带来的:可以缓解由维度诅咒(高维)带来的问题;可以用来压缩数据,将损失数据最小化;可以将高维数据降到低维进行可视化。主成分分析(Principal components analysis,简称PCA)是最重要的降维方法之一。一般我们提到降- 维最容易想到的算法就是PCA,下面我们就对PCA的原理做一个总结。PCA的scikit-learn实现scikit-learn集成了PCA方法,调用起来也更加方便转载 2021-03-26 12:10:53 · 3626 阅读 · 0 评论 -
MLFlow︱机器学习工作流框架:MLFlow docker 实践(二)
文章目录1 mlflow Dockerfile2 训练模型3 对比模型4 打包模型5 模型部署6 模型inference调用mlflow的安装与使用,可以直接:pip install mlflow1 mlflow Dockerfile本来按照这个MLFlow教程(MLflow系列1:MLflow入门教程(Python)),找台机器跑起来没啥问题;不过,看到项目的github有Dockerfile那必须上啊!然后就被各类报错虐了一下午。。首先,来看一下全环境的官方mlflow/Dockerf原创 2021-02-26 16:01:17 · 2969 阅读 · 0 评论 -
MLFlow︱机器学习工作流框架:介绍(一)
文章目录1 DataOps、MLOps 和 AIOps,你要的是哪个Ops?2 MLFlow2.1 MLFlow优势2.2 MLFlow劣势1 DataOps、MLOps 和 AIOps,你要的是哪个Ops?之前的很多研究其实跟工程化是比较脱节的,模型在小环境中工作得很好,并不意味着它在任何地方都可以工作得很好。各类开源项目其实很大程度上满足了我这样的调包工程师的需求,那么工程化就非常有必要了。之前《DataOps、MLOps 和 AIOps,你要的是哪个Ops?》文章提到:DataOps、MLO原创 2021-02-25 23:05:18 · 16448 阅读 · 0 评论 -
智能营销增益(Uplift Modeling)模型——pylift库的使用(二)
上一篇【智能营销增益(Uplift Modeling)模型——模型介绍(一)】仔细介绍了理论部分,本篇主要是算法库pylift的介绍。在【营销增益模型实战-Uplift Model原理及应用】一文中提到:目前的算法包虽然可以直接使用,但速度慢,定制性差由于Uplift模型还未被广泛使用,业界对于该技术的定义混乱,每个领域甚至每个公司都会有自己的魔改版本,甚至连该方法的名称都没有得到统一,举几个常见的例子:Estimating heterogeneous treatment effects (E原创 2021-02-17 17:38:11 · 8897 阅读 · 3 评论 -
智能营销增益(Uplift Modeling)模型——模型介绍(一)
文章目录1 Uplift Modeling与reponse model模型的差异1.1 增益模型与响应模型的差异1.2 增益模型与响应模型的混淆1.3 业务疑问与需求1.3.1 多维度建模1.3.2 一些使用场景1.3.3 实验室组和对照组 数据不均匀2 uplift model的模型2.1 差分响应模型(Two-Model Approach)2.2 差分响应模型升级版(One-Model Approach)2.3 Modeling Uplift Directly2.4 Class Transformati原创 2021-02-17 16:36:17 · 9770 阅读 · 3 评论 -
推荐系统中传统模型——LightGBM + FFM融合
之前比较相关的文章:推荐系统中传统模型——LightGBM + LR融合python - 机器学习lightgbm相关实践1 深入FFM原理与实践来自美团技术团队的,深入FFM原理与实践FM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团技术团队在搭建DSP的过程中,探索并使用了FM和FFM模型进行CTR和CVR预估,并且取得了不错的效果。经过One-Hot编码之后,大部分原创 2021-01-04 10:40:15 · 2198 阅读 · 0 评论 -
推荐系统中传统模型——LightGBM + LR融合
笔者最近再学习腾讯广告算法大赛,发现一些选择会用GBDT来进行“降维”与特征工程,有提分点,于是乎也来看看。之前的一篇跟LightGBM相关的文章:python - 机器学习lightgbm相关实践这里可以直接跑通的github:wangru8080/gbdt-lr1 GBDT + LR原理参考:GBDT+LR算法解析及Python实现1.1 CTR常见流程GBDT+LR 使用最广泛的场景是CTR点击率预估,即预测当给用户推送的广告会不会被用户点击。点击率预估模型涉及的训练样本一般是上亿级别.原创 2020-12-28 17:46:22 · 4454 阅读 · 0 评论 -
百度AI -智能地址识别 接口使用
百度最近推出了地址识别,不过python SDK没有更新,只能用请求的方式。不过,从效果来看,不能返回具体的经纬度,对后续的分析只是文本拆散 + 归类,解析省市区;可能还不如直接用地图API的地理编码,来的更直接代码地址:https://github.com/mattzheng/Baidu-AIP-Address其中,自己需要在百度后台拿到。APP_ID = 'xxxxxx'API_KEY = 'xxxxxx'SECRET_KEY = ''使用:ad = address_detect.原创 2020-10-09 11:56:25 · 3125 阅读 · 5 评论 -
推荐 | 微软SAR近邻协同过滤算法相关问题(三)
遇到的问题贴…持续追加…参考相关帖:推荐 | 微软SAR近邻协同过滤算法解析(一)推荐 | 微软SAR近邻协同过滤算法拆解(二)练习题︱ python 协同过滤ALS模型实现:商品推荐 + 用户人群放大1 问题一:模型预测之后Prediction一直为0模型预测之后Prediction一直为0,同时发现model.item_similarity对角阵只有1,如下:array([[1, 0, 0, ..., 0, 0, 0], [0, 1, 0, ..., 0, 0, 0],.原创 2020-09-10 18:08:56 · 388 阅读 · 0 评论 -
推荐 | 微软SAR近邻协同过滤算法拆解(二)
推荐 | 微软SAR近邻协同过滤算法解析(一)前面这篇介绍了整个SAR算法,算法本身比较容易理解。本篇主要对一下里面有趣的小函数。文章目录1 对角方阵求jaccard / lift2 矩阵取top-k函数3 sparse稀疏矩阵构造4 一些评价指标:NDCG、MAP、MRR、HR、ILS、ROC、AUC、F1等4.1 Hit Ratio(HR)4.2 Mean Average Precision(MAP)1 对角方阵求jaccard / lift这个发生在CCC矩阵co-occurence mat原创 2020-09-09 14:29:26 · 1925 阅读 · 0 评论 -
推荐 | 微软SAR近邻协同过滤算法解析(一)
SAR是一种快速,可扩展的自适应算法,可根据用户交易历史记录提供个性化推荐.它通过理解项目之间的相似性来推动,并向用户具有现有亲和力的项目推荐类似项目.SAR is a fast scalable adaptive algorithm for personalized recommendations based on user transaction history and items description. The core idea behind SAR is to recommend it.原创 2020-09-08 19:09:19 · 963 阅读 · 0 评论 -
scipy.sparse、pandas.sparse、sklearn稀疏矩阵的使用
单机环境下,如果特征较为稀疏且矩阵较大,那么就会出现内存问题,如果不上分布式 + 不用Mars/Dask/CuPy等工具,那么稀疏矩阵就是一条比较容易实现的路。文章目录1 scipy.sparse1.1 SciPy 几种稀疏矩阵类型1.2 lil_matrix1.3 矩阵的通用属性1.4 稀疏矩阵存取2 pandas.sparse2.1 SparseArray2.2 新建SparseDataFrame2.3 格式转化2.4 稀疏矩阵的属性2.5 scipy.sparse与pandas.sparse3 s原创 2020-09-03 16:41:08 · 5943 阅读 · 1 评论 -
练习题︱基于今日头条开源数据(二)——两款Apriori算法实践
Apriori算法是通过限制候选产生发现频繁项集。总的来说,Apriori算法其实效率并不高,大规模数据计算的时候,需要考虑性能问题。 code + data可见:mattzheng/AprioriDemo盗图盗图: 在R语言里面有非常好的package,可见我之前的博客: R语言实现关联规则与推荐算法(学习笔记) 该packages能够实现以下一些可视化: ...原创 2018-06-07 16:23:26 · 1447 阅读 · 0 评论 -
sklearn中多种编码方式——category_encoders(one-hot多种用法)
离散型编码的Python库,里面封装了十几种(包括文中的所有方法)对于离散型特征的编码方法,接口接近于Sklearn通用接口,非常实用可以使用多种不同的编码技术把类别变量转换为数值型变量,并且符合sklearn模式的转换。官方github:https://github.com/scikit-learn-contrib/category_encoders官方文档:http://contrib.scikit-learn.org/category_encoders/#这个库的作者将类别编码分为两类,无原创 2020-08-06 22:50:50 · 19978 阅读 · 5 评论 -
python - 机器学习lightgbm相关实践
相关文章:R+python︱XGBoost极端梯度上升以及forecastxgb(预测)+xgboost(回归)双案例解读python︱sklearn一些小技巧的记录(训练集划分/pipelline/交叉验证等)GBDT一个藤上,进化的xgb以及lgb。比较好的几则练习代码:QLMX/data_mining_modelsAnfany/Machine-Learning-for-Beginner-by-Python3文章目录0 相关理论0.1 内存更小0.2 速度更快0.3 直接支持类别特征原创 2020-08-06 18:58:14 · 1455 阅读 · 0 评论 -
练习题︱ python 协同过滤ALS模型实现:商品推荐 + 用户人群放大
之前的一个练习题:练习题︱豆瓣图书的推荐与搜索、简易版知识引擎构建(neo4j)提及了几种简单的推荐方式。但是在超大规模稀疏数据上,一般会采用一些规模化的模型,譬如spark-ALS就是其中一款。这边,笔者也是想调研一下这个模型的操作性,所有就先用单机版的测试一下;对应的spark.mlib有分布式的版本。练习代码可见:mattzheng/pyALS文章目录1 ALS算法 - Alternating Least Square - 交替最小二乘法1.1 理论介绍1.2 58同城的推荐场景实战2原创 2020-06-04 14:52:47 · 2480 阅读 · 0 评论 -
nvidia-rapids︱cuGraph(NetworkX-like)关系图模型
RAPIDS cuGraph库是一组图形分析,用于处理GPU数据帧中的数据 - 请参阅cuDF。 cuGraph旨在提供类似NetworkX的API,这对数据科学家来说很熟悉,因此他们现在可以更轻松地构建GPU加速的工作流程官方文档:rapidsai/cugraphcuGraph API Reference支持的模型:文章目录1 安装与背景1.1 安装1.2 背景2 简单的demo3...原创 2020-02-25 21:56:02 · 3028 阅读 · 0 评论 -
nvidia-rapids︱cuML机器学习加速库
cuML是一套用于实现与其他RAPIDS项目共享兼容API的机器学习算法和数学原语函数。cuML使数据科学家、研究人员和软件工程师能够在GPU上运行传统的表格ML任务,而无需深入了解CUDA编程的细节。 在大多数情况下,cuML的Python API与来自scikit-learn的API相匹配。对于大型数据集,这些基于GPU的实现可以比其CPU等效完成10-50倍。 有关性能的详细信息,请参阅...原创 2020-02-25 21:38:59 · 9149 阅读 · 3 评论