自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

猪逻辑公园

机器学习风控营销推荐 NLP

转载机器学习中的 Shapley 值怎么理解？

我第一次听说 Shapley 值是在学习模型可解释性的时候。我知道了 SHAP，它是一个框架，可以更好地理解为什么机器学习模型会那样运行。事实证明，Shapley 值已经存在了一段时间，它们最早起源于 1953 年的博弈论领域，目的是解决以下情况：一群拥有不同技能的参与者为了集体奖励而相互合作。那么，如何在小组中公平分配奖励?当一个「旧」概念被应用到另一个领域，如机器学习，关于它是如何获得新的应用是非常有趣的。在机器学习中，参与者是你输入的特征，而集体支出是模型预测。在这种情况中，Shapley 值用

2020-11-17 14:37:20 3569 1

转载 pandas Dataframe减少数据的内存

def reduce_mem_usage(df, verbose=True): numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64'] start_mem = df.memory_usage().sum() / 1024**2 for col in df.columns: col_type = df[col].dtypes if col_type in n.

2020-09-30 13:57:32 737

转载如何把非正态分布数据转换为正态分布数据？

大部分的数据分析都希望原始数据是满足正态分布的定距变量。然而，显示是残酷的，在各种研究中，常常需要面对非正态分布的定距数据。为了解决数据的正态性问题，数学家们总结了很多转化方法，但是没有万能神药，都需要对症下药（根据数据的实际分布情况，选择合适的转化方法）。下面不会介绍具体的转化方法，只是帮助大家理顺正态转化的思路，明白正态转化的逻辑，不至于将正态转化看做神秘领域，高不可攀。正态转化四步骤第一步：计算数据的分布状况及两个参数：偏度（Skewness）和峰度（Kurtosis）。第二步：根

2020-09-22 18:31:24 40758

转载数据挖掘标准流程CRISP-DM

1、首先说一下KDD模型的概念知识发现（KDD：Knowledge Discovery in Database）是从数据集中识别出有效的、新颖的、潜在有用的，以及最终可理解的模式的非平凡过程。知识发现将信息变为知识，从数据矿山中找到蕴藏的知识金块，将为知识创新和知识经济的发展作出贡献。这里不得不提一下数据挖掘的概念，数据挖掘（英语：Data mining），又译为资料探勘、数据采矿。它是KDD中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机...

2020-08-25 10:57:28 1709

原创传统推荐模型的特点总结

模型名称基本原理特点局限性协同过滤根据用户的行为历史生成用户-物品共现矩阵，利用用户相似性和物品相似性进行推荐原理简单、直接，应用广泛泛化能力差，处理稀疏矩阵的能力差，推荐结果的头部效应明显矩阵分解将协同过滤算法中的共现矩阵分解为用户矩阵和物品矩阵，利用用户隐向量和物品隐向量的内积进行排序并推荐相较协同过滤，泛化能力有所增强，对稀疏矩阵的处理能力有所增强除了用户历史行为数据，难以利用其他用户、物品特征及上下文特征 ...

2020-08-04 21:00:31 583

转载 pandas2libFFM

import numpy as np # linear algebraimport pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)from sklearn.datasets import make_classification'''A sci-kit learn inspired script to convert pandas dataframes into libFFM style data.The scri.

2020-06-24 15:07:19 339

转载推荐系统实践：基于物品的协同过滤算法原理及实现(含改进算法)

基于物品的协同过滤算法(ItemCF)给用户推荐那些和他们之前喜欢的物品相似的物品。比如：该算法会因为你购买过《数据挖掘导论》而给你推荐《机器学习》。不过ItemCF算法不利用物品的内容属性计算物品之间的相似度，它主要通过分析用户的行为记录计算物品之间的相似度。该算法认为，物品A和物品B具有很大相似度的原因是因为喜欢物品A的用户大都也喜欢物品B。基于物品的协同过滤算法主要分为两步...

2020-04-26 11:59:53 4621 2

转载 11种离散型变量编码方式及效果对比

首先介绍一个关于离散型编码的Python库，里面封装了十几种（包括文中的所有方法）对于离散型特征的编码方法，接口接近于Sklearn通用接口，非常实用。下面是这个库的链接：Category Encoders1. Label Encoder / Ordered Encoder这个编码方式非常容易理解，就是把所有的相同类别的特征编码成同一个值，例如女=0，男=1，狗狗=2，所以最后编码的特征值...

2020-04-17 18:15:56 1928

转载定序回归实战

蓝精灵村子新开了一家火锅店，原来格格巫在自动售货机上挣了一笔之后，又有了开餐馆的想法了，他把村子外面流行的火锅引入蓝精灵村子，没想到生意很火爆，蓝精灵们经常要排很长的队才能吃上格格巫家的火锅。看着自家餐馆门口长长的队伍，队伍里蓝精灵吃货们既饥渴又不耐烦的眼神，格格巫心里又欣喜，又担忧。他寻思这队伍太长了会不会影响了顾客们对就餐经历的评价，于是琢磨着想研究一下排队等待时间和客户满意度之间的关系。他在...

2020-04-03 18:25:02 4281

转载平均数编码：针对高基数定性特征（类别特征）的数据预处理/特征工程

平均数编码：针对高基数定性特征（类别特征）的数据预处理Mean Encoding: A Preprocessing Scheme for High-Cardinality Categorical Features论文原文下载：http://helios.mm.di.uoa.gr/~rouvas/ssi/sigkdd/sigkdd.vol3.1/barreca.pdf如果某一个特征是...

2020-03-13 15:29:16 1429 1

转载 Python 内置函数

eval()函数功能：将字符串str当成有效的表达式来求值并返回计算结果。语法： eval(source[, globals[, locals]]) -> value参数：source：一个 Python 表达式或函数 compile()返回的代码对象globals：可选。必须是 dictionarylocals：可选。任意映射对象s='print("a+b")...

2020-03-13 15:05:16 302

原创基于RFM的航空公司客户价值分析模型

谈到用户分类模型，最被谈及的应该就是RFM模型了。大部分人常把RFM模型挂在嘴边，而在实际使用中的却很难真正的利用起来。这里暂时不去讨论RFM是好是坏。今天的介绍的是另外一个拓展的模型：航空公司客户价值分析模型LRFCM。RFM模型的复习在客户分类中，RFM模型是一个经典的分类模型，模型利用通用交易环节中最核心的三个维度——最近消费(Recency)、消费频率(Frequency)、消费金...

2020-03-03 18:38:51 4767

转载机器学习算法评价指标之group auc（gauc）

在机器学习算法中，很多情况我们都是把auc当成最常用的一个评价指标，而auc反映整体样本间的排序能力，但是有时候auc这个指标可能并不能完全说明问题，有可能auc并不能真正反映模型的好坏，以CTR预估算法(推荐算法一般把这个作为一个很重要的指标)为例，把用户点击的样本当作正样本，没有点击的样本当作负样本，把这个任务当成一个二分类进行处理，最后模型输出的是样本是否被点击的概率。举个很简单的例子...

2020-01-09 15:47:23 1457

转载 python编译、运行、反编译pyc文件

编译生成pyc：单个文件代码：import py_compilepy_compile.compile("test.py")命令行下：python -m py_compile test.py多个文件import compileallcompileall.compile_dir("存放海量py的目录")命令行下：python -m compil...

2019-12-13 14:04:49 474

转载使用pandas如何进行速度提升

前言当大家谈到数据分析时，提及最多的语言就是Python和SQL。Python之所以适合数据分析，是因为它有很多第三方强大的库来协助，pandas就是其中之一。pandas的文档中是这样描述的：“快速，灵活，富有表现力的数据结构，旨在使”关系“或”标记“数据的使用既简单又直观。”我们知道pandas的两个主要数据结构：dataframe和series，我们对数据的一些操作都是基于这两个...

2019-12-11 16:54:53 611

转载 Numpy clip函数

numpy.clip(a, a_min, a_max, out=None)[source]其中a是一个数组，后面两个参数分别表示最小和最大值，怎么用呢，老规矩，我们看代码：import numpy as npx=np.array([1,2,3,5,6,7,8,9])np.clip(x,3,8)Out[88]:array([3, 3, 3, 5, 6, 7, 8, 8])也就...

2019-12-11 11:51:56 330

转载度量学习中的马氏距离(Mahalanobis Distance)

对马氏距离的定义：马氏距离是由印度统计学家马哈拉诺比斯（P. C. Mahalanobis）提出的，表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系（例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是有关联的）并且是尺度无关的（scale-invariant），即独立于测量尺度。对于一个均值为，协方差矩阵为Σ...

2019-11-25 18:53:08 3409

转载 python numpy-tile函数

查看help文档help(numpy.tile)Help on function tile in module numpy.lib.shape_base:tile(A, reps) Construct an array by repeating A the number of times given by reps. If `reps` has length...

2019-11-25 14:49:20 325 1

原创 sklearn分类评估参数 average

参数解释average: string, [None, ‘micro’, ‘macro’(default), ‘samples’, ‘weighted’]将一个二分类matrics拓展到多分类或多标签问题时，我们可以将数据看成多个二分类问题的集合，每个类都是一个二分类。接着，我们可以通过跨多个分类计算每个二分类metrics得分的均值，这在一些情况下很有用。你可以使用average参数来...

2019-11-22 11:28:54 3414

转载 Oracle数据库访问性能优化

目录一、百万级数据库优化方案二、oracle数据库两个基本概念三、数据库访问优化法则详解1、减少数据访问1.1、创建并使用正确的索引1.2、只通过索引访问数据1.3、优化SQL执行计划2、返回更少的数据2.1、数据分页处理2.2、只返回需要的字段3、减少交互次数3.1、batch DML3.2、In List3.3、设置Fetch Size...

2019-11-18 14:16:34 1941

转载变量选择之VARCLUS

1 变量选择过程介绍对于数据挖掘来说，变量选择是一个很重要的过程，使用维归约来进行变量选择的好处是在能不降低预测能力的前提下，减少侯选变量的个数。本文将讲一下维归约的过程、维归约的方法以及实现这些方法的SAS过程步，主要包括VARCLUS，factor，princomp三个过程步，通过这三个过程步，我们可以将变量进行分组，然后通过选择组里几个重要的变量来代替整个组的变量，从而达到既减少侯...

2019-11-14 17:03:28 2610

转载 Levenshtein莱文斯坦计算相似度距离

https://github.com/ztane/python-Levenshtein/https://pypi.org/project/python-Levenshtein/Levenshtein.distance(str1,str2)1.百度百科介绍：Levenshtein 距离，又称编辑距离，指的是两个字符串之间，由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包...

2019-11-13 14:44:28 6050

转载 None vs NaN要点总结

在pandas中，如果其他的数据都是数值类型， pandas会把None自动替换成NaN, 甚至能将s[s.isnull()]= None,和s.replace(NaN, None)操作的效果无效化。这时需要用where函数才能进行替换s.where(s.notnull(), None)。 None能够直接被导入数据库作为空值处理，包含NaN的数据导入时会报错。 numpy和pandas...

2019-11-13 11:39:41 340

转载 orc格式和parquet格式对比

相比传统的方式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作而备受青睐,尤其是在数据列column数很多,单词操作仅针对若干列的情景,列式存储引擎的性价比更高.在互联网数据应用场景下,大部分情况下,数据很大且数据字段很多,但每次查询数据只针对其中的少数几行,这时候列式存储是极佳的选择,目前在开源实现中,最有名的列式存储引擎parquet 和orc ,在最近一年内,他们都晋升apache顶...

2019-11-12 11:24:03 10745 2

转载 Spark在Windows下的环境搭建

一、JDK的安装1、1 下载JDK　　首先需要安装JDK，并且将环境变量配置好，如果已经安装了的老司机可以忽略。JDK（全称是JavaTM Platform Standard Edition Development Kit）的安装，去Oracle官网下载，下载地址是Java SE Downloads。　　上图中两个用红色标记的地方都是可以点击的，点击进去之后可以看到这个最新版本的...

2019-11-08 14:25:53 269

原创 jetbrains官网不能访问

登陆不上http://www.jetbrains.com/可能是由于以前修改过 C:\Windows\System32\drivers\etc 下的hosts文件可用notepad++将这两行注释掉

2019-11-08 13:12:18 13594 6

转载一致性哈希算法应用与分析

一致性哈希算法主要使用在分布式数据存储系统中，按照一定的策略将数据尽可能均匀分布到所有的存储节点上去，使得系统具有良好的负载均衡性能和扩展性。感觉一致性哈希与数据结构中的“循环队列”还是有一点联系的。1.简单哈希算法　　哈希(hash)计箅是常见的数据分布技术，其通过求模运算来计算哈希值，然后据此将数据映射到存储空间中。由于只是采用了简单的求模运算．使得简单哈希计算存在很多不足：　　1)...

2019-11-05 18:01:36 226

原创提升指数、提升表和提升图

1. 什么是Lift？I) Lift（提升指数）是评估一个预测模型是否有效的一个度量；这个比值由运用和不运用这个模型所得来的结果计算而来。II) 一个简单的数字例子：i. 比如说你要向选定的1000人邮寄调查问卷。以往的经验告诉你大概20%的人会把填好的问卷寄回给你，即1000人中有200人会对你的问卷作出回应（response），用统计学的术语，我们说baseline respons...

2019-10-25 11:11:15 1271

转载阿里之完整空间多任务模型ESMM介绍

论文地址：https://arxiv.org/abs/1804.07931在正式开篇之前，我们先介绍一下几个名词：impression：用户观察到曝光的产品click：用户对impression的点击行为conversion：用户点击之后对物品的购买行为CTR：从impression到click的比例CVR：从click到conversion的比例CTCVR：从impression到conve...

2019-10-21 17:54:32 1467

转载 Multi task learning（MTL）多任务学习介绍

1、定义及与其他机器学习任务的区别1.1 单任务学习与多任务学习既然要介绍多任务学习，那么就必须要提到与之对应的单任务学习。我们平时接触最多的那些机器学习算法基本都是单任务学习，即专注于一个学习目标。如上图所示，有4个独立的神经网络，每个网络针对同样的输入只有一个输出函数（优化目标），这四个网络之间没有任何连接，所以每个网络之间的表示层是独立的，彼此训练的隐层对其他网络的训练没有任...

2019-10-21 11:33:46 2391

转载机器学习中的多标签分类

多标签分类的算法，通常改变算法或数据，最常用的方法如下：改造成二分类比如，y标签一共有L个分类，那么就建立L个分类器，分别对应L个分类标签，进行训练。标签排序+二分类使用“成对比较”（pairwise comparison），获得L(L-1)/2个分类器。在训练这些分类器后，利用投票方式得到标签的排序。然后，利用二分类来对标签排序的投票结果进行补充，提高准确性。随机k标签从...

2019-10-21 10:55:08 2521

转载使用Scala-IDE构建Maven项目

前置环境安装并配置好：Java、spark、Hadoop、scala1. 下载Scala IDE通过以下链接下载Scala IDE：http://scala-ide.org/download/sdk.html根据自己的平台选择自己相应版本下载。下载完成之后解压，如下：选择eclipse.exe启动即可。2. 安装插件原生的Maven插件在Eclipse中，不能应用到sc...

2019-10-17 14:06:44 498

原创学习博客收藏

http://www.csuldw.com/https://github.com/zhpmatrix/nlp-competitions-list-reviewWide & Deep与DeepFM模型https://www.zhihu.com/people/wang-ming-hui-38/postshttp://wd1900.github.io/#bloghttps:/...

2019-10-16 10:40:26 221

原创 PySpark︱DataFrame操作指南

pyspark系列--字符串函数增/删/改/查/合并/统计与数据处理《Spark Python API 官方文档中文版》之 pyspark.sql (一)《Spark Python API 官方文档中文版》之 pyspark.sql（二）...

2019-07-26 13:52:12 430

原创台湾-李宏毅教授的深度学习视频教程

李宏毅老师简介：主要研究领域为机器学习（特别是深度学习）、口语语义理解和语音识别。2012年从台北 National Taiwan University (NTU) 博士毕业。2012年9月—2013年8月，在 Sinica Academia 的 Research Center for Information Technology Innovation 做博士后。2013年9月—2014年7月...

2019-07-14 22:14:50 2495

转载从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

转载自- 张俊林的文章 - 知乎 https://zhuanlan.zhihu.com/p/49271699Bert最近很火，应该是最近最火爆的AI进展，网上的评价很高，那么Bert值得这么高的评价吗？我个人判断是值得。那为什么会有这么高的评价呢？是因为它有重大的理论或者模型创新吗？其实并没有，从模型创新角度看一般，创新不算大。但是架不住效果太好了，基本刷新了很多NLP的任务的最好性能，有些任...

2019-07-14 21:42:11 356

转载 sklearn的自定义转换器transformer以及使用pipeline对数据进行处理

摘要在很多机器学习场景中，需要我们对数据进行预处理，sklean提供的pipeline接口方便我们将数据预处理与模型训练等工作进行整合，方便对训练集、验证集、测试集做相同的转换操作，极大的提高了工作效率。但是在不同场景下往往预处理的方法会出现多样性，然而sklearn所提供的预处理接口(Transformers)数量有限，有的时候往往需要我们自己编写函数对数据进行预处理。为了让我们自定义的数据...

2019-07-14 12:25:19 4816

原创 AI研习社技术分享

AutoML在 IEEE-ISI World Cup 2019竞赛中的应用：冠军团队DeepBlueAI技术分享GitHub项目推荐|awesome-bert:BERT相关资源列表【CVPR 2019 全部论文合集】https://ai.yanxishe.com/page/resourceDetail/845【CVPR 2019 Oral 论文精选】https://ai.yanxis...

2019-07-09 18:39:41 9890

原创 Spark集群安装和部署(六)-----pyspark更新Python版本、Notebook安装配置、安装pip

默认安装好spark后，pyspark环境中Python为2，需要更新为3Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoopSpark集群安装和部署(四)-----ubuntu16.0.4安装...

2019-07-08 18:41:53 3356 1

原创 Spark集群安装和部署(五)-----ubuntu16.0.4安装Spark

Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoopSpark集群安装和部署(四)-----ubuntu16.0.4安装ScalaSpark集群安装和部署(五)-----ubuntu16.0.4安...

2019-07-08 17:44:57 1118 1

Learning and Transferring IDs Representationin E-commerce

LearningandTransferringIDsRepresentationinE-commerce

2019-10-22

Personalization and Recommendation Systems.pdf

Deep Learning Recommendation Model for Personalization and Recommendation Systems

2019-10-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除