自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

猪逻辑公园

机器学习 风控 营销推荐 NLP

  • 博客(11)
  • 资源 (2)
  • 收藏
  • 关注

转载 度量学习中的马氏距离(Mahalanobis Distance)

对马氏距离的定义:马氏距离是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。 对于一个均值为,协方差矩阵为Σ...

2019-11-25 18:53:08 3039

转载 python numpy-tile函数

查看help文档help(numpy.tile)Help on function tile in module numpy.lib.shape_base:tile(A, reps) Construct an array by repeating A the number of times given by reps. If `reps` has length...

2019-11-25 14:49:20 246 1

原创 sklearn分类评估参数 average

参数解释average: string, [None, ‘micro’, ‘macro’(default), ‘samples’, ‘weighted’]将一个二分类matrics拓展到多分类或多标签问题时,我们可以将数据看成多个二分类问题的集合,每个类都是一个二分类。接着,我们可以通过跨多个分类计算每个二分类metrics得分的均值,这在一些情况下很有用。你可以使用average参数来...

2019-11-22 11:28:54 3063

转载 Oracle数据库访问性能优化

目录一、百万级数据库优化方案二、oracle数据库两个基本概念三、数据库访问优化法则详解1、减少数据访问1.1、创建并使用正确的索引1.2、只通过索引访问数据1.3、优化SQL执行计划2、返回更少的数据2.1、数据分页处理2.2、只返回需要的字段3、减少交互次数3.1、batch DML3.2、In List3.3、设置Fetch Size...

2019-11-18 14:16:34 1734

转载 变量选择之VARCLUS

1 变量选择过程介绍对于数据挖掘来说,变量选择是一个很重要的过程,使用维归约来进行变量选择的好处是在能不降低预测能力的前提下,减少侯选变量的个数。本文将讲一下维归约的过程、维归约的方法以及实现这些方法的SAS过程步,主要包括VARCLUS,factor,princomp三个过程步,通过这三个过程步,我们可以将变量进行分组,然后通过选择组里几个重要的变量来代替整个组的变量,从而达到既减少侯...

2019-11-14 17:03:28 2330

转载 Levenshtein莱文斯坦计算相似度距离

https://github.com/ztane/python-Levenshtein/https://pypi.org/project/python-Levenshtein/Levenshtein.distance(str1,str2)1.百度百科介绍:Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包...

2019-11-13 14:44:28 4776

转载 None vs NaN要点总结

在pandas中, 如果其他的数据都是数值类型, pandas会把None自动替换成NaN, 甚至能将s[s.isnull()]= None,和s.replace(NaN, None)操作的效果无效化。 这时需要用where函数才能进行替换s.where(s.notnull(), None)。 None能够直接被导入数据库作为空值处理, 包含NaN的数据导入时会报错。 numpy和pandas...

2019-11-13 11:39:41 265

转载 orc格式和parquet格式对比

相比传统的方式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作而备受青睐,尤其是在数据列column数很多,单词操作仅针对若干列的情景,列式存储引擎的性价比更高.在互联网数据应用场景下,大部分情况下,数据很大且数据字段很多,但每次查询数据只针对其中的少数几行,这时候列式存储是极佳的选择,目前在开源实现中,最有名的列式存储引擎parquet 和orc ,在最近一年内,他们都晋升apache顶...

2019-11-12 11:24:03 10621 2

转载 Spark在Windows下的环境搭建

一、JDK的安装1、1 下载JDK  首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略。JDK(全称是JavaTM Platform Standard Edition Development Kit)的安装,去Oracle官网下载,下载地址是Java SE Downloads。  上图中两个用红色标记的地方都是可以点击的,点击进去之后可以看到这个最新版本的...

2019-11-08 14:25:53 197

原创 jetbrains官网不能访问

登陆不上http://www.jetbrains.com/可能是由于以前修改过 C:\Windows\System32\drivers\etc 下的hosts文件可用notepad++将这两行注释掉

2019-11-08 13:12:18 13351 6

转载 一致性哈希算法应用与分析

一致性哈希算法主要使用在分布式数据存储系统中,按照一定的策略将数据尽可能均匀分布到所有的存储节点上去,使得系统具有良好的负载均衡性能和扩展性。感觉一致性哈希与数据结构中的“循环队列”还是有一点联系的。1.简单哈希算法  哈希(hash)计箅是常见的数据分布技术,其通过求模运算来计算哈希值,然后据此将数据映射到存储空间中。由于只是采用了简单的求模运算.使得简单哈希计算存在很多不足:  1)...

2019-11-05 18:01:36 154

Personalization and Recommendation Systems.pdf

Deep Learning Recommendation Model for Personalization and Recommendation Systems

2019-10-22

Learning and Transferring IDs Representationin E-commerce

LearningandTransferringIDsRepresentationinE-commerce

2019-10-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除