Walter_Silva-CSDN博客

原创 Model-Agnostic Methods - Global Surrogate&Local Surrogate (LIME)

全局代理和局部代理一、Global Surrogate全局代理具体步骤如下：Perform the following steps to obtain a surrogate model:1. Select a dataset X. This can be the same dataset that was used for training the black box model...

2022-06-04 23:02:19 588

原创数仓建设-架构&建模

目录一、架构篇1.1 企业架构1.2 数据平台架构二、建模篇2.1 FS-LDM2.2 数据模型概念 2.2.1 概念 2.2.2 数据模型三要素 2.2.3 数据模型分类，以旅客身份识别为例2.3 维度建模工作过程 2.3.1数据调研2.3.2 数据域划分 2.3.3 构建总线矩阵 2.3.4 规范定义 2.3......

2021-11-28 17:41:07 2886

CLV 客户生命价值理论部分，把CLV拆解为未来一段时间用户的购买次数（MBG/NBD）*未来一段时间内用户的平均消费额（Gamma-Gamma），最后用DCF进行校准。https://zhuanlan.zhihu.com/p/135195797（2）开源的计算CLV的包，输入为RFM，输出为CLV值https://github.com/CamDavidsonPilon/lifetimes/blob/master/docs/Quickstart.md...

2021-02-19 20:04:03 802

原创数据异动分析理论（转载与总结）

原文链接：https://mp.weixin.qq.com/s/Fy3q9oKhxZAWhMgHEFP16Q看到一篇关于数据异动分析的文章，看了3遍，感觉非常好，就记下以便后面做分析用。

2021-02-01 18:29:35 712

原创结构化面试学习小结

结构化面试也叫标准化面试，分为3步：1、标准化流程 - 一套标准的开始到结束流程1.1 准备阶段制定面试指南；准备面试问题->产出评分表1.2 实施阶段关系建立-导入-核心-确认-结束1.3 总结综合面试结果，无论录用与否，及时礼貌反馈2、根据岗位画像导出题库可以部分参考，世界100强结构化面试题 http://www.eoffcn.com/kszn/mianshi/jghms/mswt.html3、面试官标准化选人时考虑动机和胜任两大因素：候选人的面试

2020-08-10 19:50:06 653

原创 Model-Agnostic Methods - Feature Interaction&Feature Importance

一、Feature InteractionThe interaction between two features is the change in the prediction that occurs by varying the features after considering the individual feature effects.二、Feature Importance...

2020-02-23 18:49:38 502

原创 Model-Agnostic Methods - Partial Dependence Plot (PDP)&Individual Conditional Expectation (ICE)

一、作为模型代理方法的第一节，先介绍模型代理方法的思路从world捕捉data，用data训练模型，再用可解释性方法来对模型的结果给出解释。把模型训练和模型解释分开，使得训练模型不再局限在拥有内在可解释性的模型范围内。二、下面介绍第一种Partial Dependence Plot (PDP)，部分依赖图形。描述的是单个或两个feature对模型outcome的边际影响。The...

2020-02-23 18:49:18 2002

原创 Interpretable Models - RuleFit

一、引入Q：The linear regression model does not account for interactions between features. Would it not be convenient to have a model that is as simple and interpretable as linear models, but also integr...

2020-02-22 18:35:38 2147

原创 Interpretable Models - Decision Rules

可以说是最简单的model了，IF-THEN的结构一、The usefulness of a decision rule is usually summarized in two numbers: Support and accuracy。Support（coverage of a rule）：走进该rule的实例占比，The percentage of instances to whic...

2020-02-22 15:35:26 769

原创 Interpretable Models - Decision Tree

这本书以CART树为例一、CART树分裂节点的过程1、对于回归问题，最小化y的方差来决定分裂点。The variance tells us how much the y values in a node are spread around their mean value2、对于分类问题，最小化y的GINI系数，The Gini index tells us how “impure” ...

2020-02-21 22:08:00 312

原创 Interpretable Models - Linear Regression

关于模型可解释性涉及到模型的整体可解释性和单个实例的可解释性。这里着重强调的是实例级别（instance-level）的可解释性。解释方法分为自带可解释性的模型和模型无关的方法。本节主要介绍自带可解释性的模型。主要包含：Monotone：是否具有单调性，即feature和target是否单调Interation：是否自带特征交叉Linear Regressiony = β0...

2020-02-21 21:01:14 354

原创 Interpretable Models - Logistic Regression&GLM&GAM

一、Logistic Regression前面的可参考linear regression，Logistics Regression只是在后面加了logistic function（1）logistic function（2）Interpretation二、广义模型线性模型中的三个假设在现实中无法满足Three assumptions of the linear ...

2020-02-21 21:01:03 667

原创区块链相关的资料（持续更新）

1、区块链入门http://www.ruanyifeng.com/blog/2017/12/blockchain-tutorial.html2、比特币http://www.ruanyifeng.com/blog/2018/01/bitcoin-tutorial.html3、加密货币的本质http://www.ruanyifeng.com/blog/2018/01/cryptocurr...

2019-05-03 22:25:29 465

原创高可用系统笔记

1.高可用是基于服务无状态无状态服务：无状态服务（stateless service）对单次请求的处理，不依赖其他请求，也就是说，处理一次请求所需的全部信息，要么都包含在这个请求里，要么可以从外部获取到（比如说数据库），服务器本身不存储任何信息有状态服务（stateful service）则相反，它会在自身保存一些数据，先后的请求是有关联的，每个请求可以默认地使用以前的请求信息。有状...

2019-01-31 10:25:19 326

原创个推教程--第九课--总结与展望

排序部分总结rank模型是对不同的item打分，然后item根据不同的得分展现给用户特征和样本量的比例一般是1:100及其以上，即样本量要保证。实验中的样本量太少，所以wd没有发挥出威力。如果比例低于100，过拟合的风险就很大。user：用户静态属性，如年龄、性别、地域以及简单的统计特征（比如用户买过多少商品、长短时统计比如近30天。。。blabla）、还有根据用户...

2019-01-13 23:49:49 332

原创个推教程--第八课--基于深度学习的排序模型wide and deep

基础的神经网络知识就跳过了DNN只在基础特征上下点功夫，复杂特征学习交给NN即可，只是可解释性会差些，但效果很不错啊k是t-1层神经元的个数，j为t层神经元的个数，a =f(z)，简单地说，t层的一个神经元就是t-1层神经元通过特征权重w和偏置量b确定的。这就是前向传播。激活函数f的作用就是把线性表达转换为非线性，增强模型表达能力，不然再多的隐层作用跟一层没有任何区别。...

2019-01-13 23:07:42 850

原创个推教程--第七课--浅层排序模型gbdt

gbdt和xgboost的详细介绍：https://wenku.baidu.com/view/44778c9c312b3169a551a460.html回归树就是把连续取值区间分箱，叶子节点为一个个小的取值区间基尼指数与熵的定义不同，熵是描述混乱状态的变量，熵越大混乱程度高；而基尼指数是指分类后分类节点左右子树下按类别衡量的纯度，纯度越高，基尼指数越小，该特征就...

2019-01-12 16:21:35 1019 1

原创个推教程--第四课--基于深度学习的个性化召回算法item2vec

1、采用负采样，而没用huffman树2、加不加时间因素没什么区别具体word2vec的原理、训练可以参考我之前的教程，里面有视频教程地址。

2019-01-12 15:10:05 1104

原创个推教程--第五课--基于内容的推荐方法content based

物品画像：这里主要讲了文本挖掘方面的，命名实体识别和文本类别识别用户画像：用户的行为、偏好用户对于不同种类的倾向性现在看可能有点晕，其实就是评估用户对哪些类别更有倾向性，以及item在类别中的重要性程度1、物品刻画：item的各类别所占比重和各类别中item相关性的倒排2、用户刻画：用户对于每个类别的得分然后就可以作召回了。所有代码在加注释后再...

2019-01-12 14:58:10 372 5

原创个推教程--第六课--排序浅层模型之LR

LR：就是特征线性加权加sigmoid激活函数，与线性回归分开，原理不同，后者最小二乘法，前者是最大似然概率公式推导主要基于最大似然，最后采用梯度下降法对W权重列表进行迭代超参如下，具体可以参考https://zhuanlan.zhihu.com/p/397802071、正则化，L1和L2L1:适合特征较多的高维数据L2：适合非高维的数据2、正则化系数一般是C，s...

2019-01-12 14:08:27 939

原创 Python的线程池和进程池实现、使用示例和注意点

1、线程池的内部实现可以先看https://www.jb51.net/article/139005.htm下面是代码示例和注释#coding='utf-8'#threadpool.ThreadPool，线程池类import osimport timeimport threadpooldef print_file_head(filename): print("begin r...

2019-01-11 21:48:08 833

原创个推教程--第三课--基于图的个性化推荐召回算法personal rank

公式推导alpha：一般是0.6-0.8

2019-01-08 19:56:13 1119 2

原创个推教程--第二课--基于邻域的个性化召回算法LFM

2-1 LFM算法综述 2-2 LFM算法的理论基础与公式推导有监督学习训练p和q，梯度下降 F：1--32正则话参数alpha：0.01=0.05之间学习率 beta 0.1保持正负样本均衡LFM复杂度成本低；但影响和推荐可解释性不如CFLFM是基于有监督学习的隐向量学习，而CF不是 ...

2019-01-07 22:45:34 628

原创个推教程--第0课--基础（主要是协同过滤的原理与实现）

https://www.imooc.com/learn/1029协同过滤--理论基础基于物品相似度小写的为item，大写的为user根据用户的行为计算出物品的相似度矩阵r：用户u对item的行为得分，i是是所有物品中前topk个物品的集合基于用户相似度 r：用户v对item的行为得分，v是用户u前topk个相似用户，而...

2019-01-06 21:55:35 371

原创个推教程--第一课--综述

个性化召回

2019-01-06 11:56:16 798 7

原创 str和unicode的异同---Python

str是字节串，由unicode经过编码(encode)后的字节组成的unicode才是真正意义上的字符串，由字符组成unicode->encode->strstr->decode->unicode默认读取的时候是str，这也是在pandas读取csv时指定encoding的原因type('中文'.decode('utf-8'))---->unico...

2018-12-28 14:35:03 457

原创特征选择--基于sklearn

https://scikit-learn.org/stable/modules/feature_selection.html#univariate-feature-selection For regression: f_regression, mutual_info_regression For classification: chi2, f_classif, mutual_info_clas...

2018-12-27 19:19:04 729 1

原创 IMDB数据集使用tensorflow训练优化过程

下面是tf官网的例子，https://www.tensorflow.org/tutorials/keras/overfit_and_underfit?hl=zh-cn# coding: utf-8# In[1]:import tensorflow as tffrom tensorflow import kerasimport numpy as npimport matplo...

2018-12-21 22:03:44 1490

原创 NLP相关的资料--持续更新

一个CNN，Fastetxt不错的介绍 http://www.52nlp.cn/tag/fasttext一个kaggle的案例：https://zhuanlan.zhihu.com/p/51675979搜狗的词库：https://pinyin.sogou.com/dict/cate/index/390 http://tools.bugscaner...

2018-12-19 23:22:16 298

原创 NLP到word2vec实战班视频截图4---从Word2vec到fasttext

视频地址：https://www.bilibili.com/video/av27083004/?p=4 对于长句子，RNN就显得力不从心，LSTM应运而生LSTM记忆的时间比RNN更长第二步中的两步结果取XOR异或案例：1、下一个字母是什么2、下一个单词是什么3、下一句话是什么4、下一个图片/音符是什么...

2018-11-24 16:21:36 501

原创 NLP到word2vec实战班视频截图3---Word2vec实战和kaggle案例分析

是用全量数据训练还是采用领域内的样本（数量足够大的话），领域内的更有效语料处理和模型构建标点去不去掉要看不同场合针对one-hot的特征，树模型其实不太合适一句话中每个词都对应一个N维的向量，这句话的向量就是各个词向量的average。但这种方式比较粗暴，结合tfidf借助外部的语料判断哪些词更重要也许效果会好些，对重要的词赋予更重要的权重。LSTM效果会比SV...

2018-11-24 10:35:50 512

原创 NLP到word2vec实战班视频截图2---Word2vec理论基础

视频地址：https://www.bilibili.com/video/av27083004/?p=2老师的blog地址：https://www.zybuluo.com/hanxiaoyang/note/472184词袋模型即第一项中文档向量表示为直接将各词的向量直接加和TDIDF也是词袋模型的一种表示法gram：元language mode...

2018-11-22 23:41:45 604

原创 NLP到word2vec实战班视频截图1----NLP理论基础

视频地址：https://www.bilibili.com/video/av27083004/?p=1对于社交语言一类的，表情符之类的要通过正则匹配把它们筛出来，具体处理如下图NLP：在feed进模型前要做大量的预处理，下面重点介绍存在的问题（在英文中这个问题比较明显，在中文中可以忽略）解决方法实现停用词（设置停用词的话可能会破坏...

2018-11-22 17:47:48 438

原创模型堆叠(Stacking)和模型融合的原理与实现以及一个库heamy的介绍

最近想用下stacking，搜了很多，现在把所学到的记录下比较好的一个资料是：英文版：https://mlwave.com/kaggle-ensembling-guide/翻译版：https://blog.csdn.net/a358463121/article/details/53054686之前乱搜一通，发现stack和blend傻傻分不清楚，后来才知道很多人stack和blen...

2018-11-22 16:42:41 7576 1

翻译 heamy的范例

详见：https://github.com/rushter/heamy=====Usage=====Using heamy in a project:.. code:: python from heamy.dataset import Dataset from heamy.estimator import Regressor, Classifier fr...

2018-11-22 16:41:35 1374

原创自然语言处理word2vec的视频笔记-理论篇

https://www.bilibili.com/video/av26923188?p=2n=1的情况举例词典的大小是指单词的个数之前一直执着于一个词怎么样，其实nlp是关注整个上下文，也就是概率空间分布，联系到了数据挖掘、机器学习的本质，都是概率分布。如下图，英文中1，2，3，4，5和西班牙语的概率一致，这也是机器同翻的基础输入层的词向量可以随机初始化，在...

2018-11-18 19:42:06 502

原创三大相关性检验的介绍和选择

https://blog.csdn.net/sinat_24143931/article/details/78798630根据这篇文章的介绍可以知道：1、person correlation coefficient（皮尔森相关性系数）就是两个变量(X, Y)的皮尔森相关性系数(ρX,Y)等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX, σY)。它要求数据是连续数...

2018-11-13 10:26:32 21474

imblearn-0.0-py2.py3-none-any.whl

dataset-credit-default.csv

十个排序算法

空空如也