自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

猪逻辑公园

机器学习 风控 营销推荐 NLP

转载 pandas2libFFM

import numpy as np # linear algebra import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv) from sklearn.datasets import make_classifi...

2020-06-24 15:07:19 24 0

转载 推荐系统实践:基于物品的协同过滤算法原理及实现(含改进算法)

基于物品的协同过滤算法(ItemCF)给用户推荐那些和他们之前喜欢的物品相似的物品。比如:该算法会因为你购买过《数据挖掘导论》而给你推荐《机器学习》。不过ItemCF算法不利用物品的内容属性计算物品之间的相似度,它主要通过分析用户的行为记录计算物品之间的相似度。该算法认为,物品A和物品B具有很大相...

2020-04-26 11:59:53 303 0

转载 11种离散型变量编码方式及效果对比

首先介绍一个关于离散型编码的Python库,里面封装了十几种(包括文中的所有方法)对于离散型特征的编码方法,接口接近于Sklearn通用接口,非常实用。下面是这个库的链接:Category Encoders 1. Label Encoder / Ordered Encoder 这个编码方式非常...

2020-04-17 18:15:56 125 0

转载 定序回归实战

蓝精灵村子新开了一家火锅店,原来格格巫在自动售货机上挣了一笔之后,又有了开餐馆的想法了,他把村子外面流行的火锅引入蓝精灵村子,没想到生意很火爆,蓝精灵们经常要排很长的队才能吃上格格巫家的火锅。看着自家餐馆门口长长的队伍,队伍里蓝精灵吃货们既饥渴又不耐烦的眼神,格格巫心里又欣喜,又担忧。他寻思这队伍...

2020-04-03 18:25:02 393 0

转载 平均数编码:针对高基数定性特征(类别特征)的数据预处理/特征工程

平均数编码:针对高基数定性特征(类别特征)的数据预处理 Mean Encoding: A Preprocessing Scheme for High-Cardinality Categorical Features 论文原文下载: http://helios.mm.di.uoa.gr/~ro...

2020-03-13 15:29:16 185 0

转载 Python 内置函数

eval()函数 功能:将字符串str当成有效的表达式来求值并返回计算结果。 语法: eval(source[, globals[, locals]]) -> value 参数: source: 一个 Python 表达式或函数 compile()返回的代码对象 globals: 可选。...

2020-03-13 15:05:16 27 0

原创 航空公司客户价值分析

谈到用户分类模型,最被谈及的应该就是RFM模型了。大部分人常把RFM模型挂在嘴边,而在实际使用中的却很难真正的利用起来。这里暂时不去讨论RFM是好是坏。今天的介绍的是另外一个拓展的模型:航空公司客户价值分析模型LRFCM。 RFM模型的复习 在客户分类中,RFM模型是一个经典的分类模型,模型利...

2020-03-03 18:38:51 368 0

转载 机器学习算法评价指标之group auc(gauc)

在机器学习算法中,很多情况我们都是把auc当成最常用的一个评价指标,而auc反映整体样本间的排序能力,但是有时候auc这个指标可能并不能完全说明问题,有可能auc并不能真正反映模型的好坏,以CTR预估算法(推荐算法一般把这个作为一个很重要的指标)为例,把用户点击的样本当作正样本,没有点击的样本当作...

2020-01-09 15:47:23 138 0

转载 python编译、运行、反编译pyc文件

编译生成pyc: 单个文件 代码: import py_compile py_compile.compile("test.py") 命令行下: python -m py_compile test.py 多个文件 import compileall c...

2019-12-13 14:04:49 47 0

转载 使用pandas如何进行速度提升

前言 当大家谈到数据分析时,提及最多的语言就是Python和SQL。Python之所以适合数据分析,是因为它有很多第三方强大的库来协助,pandas就是其中之一。pandas的文档中是这样描述的: “快速,灵活,富有表现力的数据结构,旨在使”关系“或”标记“数据的使用既简单又直观。” 我们知...

2019-12-11 16:54:53 60 0

转载 Numpy clip函数

numpy.clip(a, a_min, a_max, out=None)[source] 其中a是一个数组,后面两个参数分别表示最小和最大值,怎么用呢,老规矩,我们看代码: import numpy as np x=np.array([1,2,3,5,6,7,8,9]) np.clip(x...

2019-12-11 11:51:56 51 0

转载 度量学习中的马氏距离(Mahalanobis Distance)

对马氏距离的定义: 马氏距离是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺...

2019-11-25 18:53:08 622 0

转载 python numpy-tile函数

查看help文档 help(numpy.tile) Help on function tile in module numpy.lib.shape_base: tile(A, reps) Construct an array by repeating A the number of...

2019-11-25 14:49:20 20 0

原创 sklearn分类评估参数 average

参数解释 average: string, [None, ‘micro’, ‘macro’(default), ‘samples’, ‘weighted’] 将一个二分类matrics拓展到多分类或多标签问题时,我们可以将数据看成多个二分类问题的集合,每个类都是一个二分类。接着,我们可以通过跨...

2019-11-22 11:28:54 68 0

转载 Oracle数据库访问性能优化

目录 一、百万级数据库优化方案 二、oracle数据库两个基本概念 三、数据库访问优化法则详解 1、减少数据访问 1.1、创建并使用正确的索引 1.2、只通过索引访问数据 1.3、优化SQL执行计划 2、返回更少的数据 2.1、数据分页处理 2.2、只返回需要的字段 3、减少...

2019-11-18 14:16:34 50 0

转载 变量选择之VARCLUS

1 变量选择过程介绍 对于数据挖掘来说,变量选择是一个很重要的过程,使用维归约来进行变量选择的好处是在能不降低预测能力的前提下,减少侯选变量的个数。本文将讲一下维归约的过程、维归约的方法以及实现这些方法的SAS过程步,主要包括VARCLUS,factor,princomp三个过程步,通过这三...

2019-11-14 17:03:28 228 0

转载 Levenshtein莱文斯坦计算相似度距离

https://github.com/ztane/python-Levenshtein/ https://pypi.org/project/python-Levenshtein/ Levenshtein.distance(str1,str2) 1.百度百科介绍: Levenshtein 距...

2019-11-13 14:44:28 145 0

转载 None vs NaN要点总结

在pandas中, 如果其他的数据都是数值类型, pandas会把None自动替换成NaN, 甚至能将s[s.isnull()]= None,和s.replace(NaN, None)操作的效果无效化。 这时需要用where函数才能进行替换s.where(s.notnull(), None)。 ...

2019-11-13 11:39:41 23 0

转载 orc格式和parquet格式对比

相比传统的方式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作而备受青睐,尤其是在数据列column数很多,单词操作仅针对若干列的情景,列式存储引擎的性价比更高. 在互联网数据应用场景下,大部分情况下,数据很大且数据字段很多,但每次查询数据只针对其中的少数几行,这时候列式存储是极佳的选择,目...

2019-11-12 11:24:03 1205 0

转载 Spark在Windows下的环境搭建

一、JDK的安装 1、1 下载JDK   首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略。JDK(全称是JavaTM Platform Standard Edition Development Kit)的安装,去Oracle官网下载,下载地址是Java SE Down...

2019-11-08 14:25:53 37 0

原创 jetbrains官网不能访问

登陆不上http://www.jetbrains.com/ 可能是由于以前修改过 C:\Windows\System32\drivers\etc 下的hosts文件 可用notepad++将这两行注释掉

2019-11-08 13:12:18 3249 0

转载 一致性哈希算法应用与分析

一致性哈希算法主要使用在分布式数据存储系统中,按照一定的策略将数据尽可能均匀分布到所有的存储节点上去,使得系统具有良好的负载均衡性能和扩展性。感觉一致性哈希与数据结构中的“循环队列”还是有一点联系的。 1.简单哈希算法   哈希(hash)计箅是常见的数据分布技术,其通过求模运算来计算哈希值,...

2019-11-05 18:01:36 41 0

原创 提升指数、提升表和提升图

1. 什么是Lift? I) Lift(提升指数)是评估一个预测模型是否有效的一个度量;这个比值由运用和不运用这个模型所得来的结果计算而来。 II) 一个简单的数字例子: i. 比如说你要向选定的1000人邮寄调查问卷。以往的经验告诉你大概20%的人会把填好的问卷寄回给你,即1000人中有2...

2019-10-25 11:11:15 98 0

转载 阿里之完整空间多任务模型ESMM介绍

论文地址:https://arxiv.org/abs/1804.07931 在正式开篇之前,我们先介绍一下几个名词:impression:用户观察到曝光的产品click:用户对impression的点击行为conversion:用户点击之后对物品的购买行为CTR:从impression到clic...

2019-10-21 17:54:32 154 0

转载 Multi task learning(MTL)多任务学习介绍

1、定义及与其他机器学习任务的区别 1.1 单任务学习与多任务学习 既然要介绍多任务学习,那么就必须要提到与之对应的单任务学习。 我们平时接触最多的那些机器学习算法基本都是单任务学习,即专注于一个学习目标。 如上图所示,有4个独立的神经网络,每个网络针对同样的输入只有一个输出函数(优化目标...

2019-10-21 11:33:46 444 0

转载 机器学习中的多标签分类

多标签分类的算法,通常改变算法或数据,最常用的方法如下: 改造成二分类 比如,y标签一共有L个分类,那么就建立L个分类器,分别对应L个分类标签,进行训练。 标签排序+二分类 使用“成对比较”(pairwise comparison),获得L(L-1)/2个分类器。在训练这些分类器后,利用投...

2019-10-21 10:55:08 96 0

转载 使用Scala-IDE构建Maven项目

前置环境安装并配置好:Java、spark、Hadoop、scala 1. 下载Scala IDE 通过以下链接下载Scala IDE: http://scala-ide.org/download/sdk.html 根据自己的平台选择自己相应版本下载。下载完成之后解压,如下: 选择ecli...

2019-10-17 14:06:44 56 0

原创 学习博客收藏

http://www.csuldw.com/ https://github.com/zhpmatrix/nlp-competitions-list-review Wide & Deep与DeepFM模型 https://www.zhihu.com/people/wang-ming-h...

2019-10-16 10:40:26 56 0

原创 PySpark︱DataFrame操作指南

pyspark系列--字符串函数 增/删/改/查/合并/统计与数据处理 《Spark Python API 官方文档中文版》 之 pyspark.sql (一) 《Spark Python API 官方文档中文版》 之 pyspark.sql(二) ...

2019-07-26 13:52:12 119 0

原创 台湾-李宏毅教授的深度学习视频教程

李宏毅老师简介:主要研究领域为机器学习(特别是深度学习)、口语语义理解和语音识别。 2012年从台北 National Taiwan University (NTU) 博士毕业。2012年9月—2013年8月,在 Sinica Academia 的 Research Center for Inf...

2019-07-14 22:14:50 771 0

转载 从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

转载自- 张俊林的文章 - 知乎 https://zhuanlan.zhihu.com/p/49271699 Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有...

2019-07-14 21:42:11 147 0

转载 sklearn的自定义转换器transformer以及使用pipeline对数据进行处理

摘要 在很多机器学习场景中,需要我们对数据进行预处理,sklean提供的pipeline接口方便我们将数据预处理与模型训练等工作进行整合,方便对训练集、验证集、测试集做相同的转换操作,极大的提高了工作效率。但是在不同场景下往往预处理的方法会出现多样性,然而sklearn所提供的预处理接口(Tra...

2019-07-14 12:25:19 882 0

原创 AI研习社技术分享

AutoML在 IEEE-ISI World Cup 2019竞赛中的应用:冠军团队DeepBlueAI技术分享 GitHub项目推荐|awesome-bert:BERT相关资源列表 【CVPR 2019 全部论文合集】https://ai.yanxishe.com/page/resource...

2019-07-09 18:39:41 1217 0

原创 Spark集群安装和部署(六)-----pyspark更新Python版本、Notebook安装配置、安装pip

默认安装好spark后,pyspark环境中Python为2,需要更新为3 Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户 Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8 Spark集群安装和部署(三)-----ubuntu...

2019-07-08 18:41:53 738 0

原创 Spark集群安装和部署(五)-----ubuntu16.0.4安装Spark

Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户 Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8 Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoop Spark集群安装和部署(四)-----ubu...

2019-07-08 17:44:57 349 0

原创 Spark集群安装和部署(四)-----ubuntu16.0.4安装Scala

Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户 Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8 Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoop Spark集群安装和部署(四)-----ubu...

2019-07-08 16:02:57 101 0

原创 Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoop

Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户 Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8 Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoop Spark集群安装和部署(四)-----ubu...

2019-07-08 12:50:24 126 0

原创 Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户

Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户 Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8 Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoop Spark集群安装和部署(四)-----ubu...

2019-07-08 12:45:02 101 0

原创 Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8

Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户 Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8 Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoop Spark集群安装和部署(四)-----ubu...

2019-07-05 17:21:50 202 0

转载 DeepFM原理及源码解析

1、DeepFM原理回顾 先来回顾一下DeepFM的模型结构: DeepFM包含两部分:因子分解机部分与神经网络部分,分别负责低阶特征的提取和高阶特征的提取。这两部分共享同样的嵌入层输入。DeepFM的预测结果可以写为: 嵌入层 嵌入层(embedding layer)的结构如...

2019-06-29 20:06:42 1448 0

提示
确定要删除当前文章?
取消 删除