2019年11月_猪逻辑公园

12月 11月 10月 07月 06月 05月 04月 03月 02月 01月

转载度量学习中的马氏距离(Mahalanobis Distance)

对马氏距离的定义：马氏距离是由印度统计学家马哈拉诺比斯（P. C. Mahalanobis）提出的，表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系（例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是有关联的）并且是尺度无关的（scale-invariant），即独立于测量尺度。对于一个均值为，协方差矩阵为Σ...

2019-11-25 18:53:08 3039

转载 python numpy-tile函数

查看help文档help(numpy.tile)Help on function tile in module numpy.lib.shape_base:tile(A, reps) Construct an array by repeating A the number of times given by reps. If `reps` has length...

2019-11-25 14:49:20 246 1

原创 sklearn分类评估参数 average

参数解释average: string, [None, ‘micro’, ‘macro’(default), ‘samples’, ‘weighted’]将一个二分类matrics拓展到多分类或多标签问题时，我们可以将数据看成多个二分类问题的集合，每个类都是一个二分类。接着，我们可以通过跨多个分类计算每个二分类metrics得分的均值，这在一些情况下很有用。你可以使用average参数来...

2019-11-22 11:28:54 3063

转载 Oracle数据库访问性能优化

目录一、百万级数据库优化方案二、oracle数据库两个基本概念三、数据库访问优化法则详解1、减少数据访问1.1、创建并使用正确的索引1.2、只通过索引访问数据1.3、优化SQL执行计划2、返回更少的数据2.1、数据分页处理2.2、只返回需要的字段3、减少交互次数3.1、batch DML3.2、In List3.3、设置Fetch Size...

2019-11-18 14:16:34 1734

转载变量选择之VARCLUS

1 变量选择过程介绍对于数据挖掘来说，变量选择是一个很重要的过程，使用维归约来进行变量选择的好处是在能不降低预测能力的前提下，减少侯选变量的个数。本文将讲一下维归约的过程、维归约的方法以及实现这些方法的SAS过程步，主要包括VARCLUS，factor，princomp三个过程步，通过这三个过程步，我们可以将变量进行分组，然后通过选择组里几个重要的变量来代替整个组的变量，从而达到既减少侯...

2019-11-14 17:03:28 2330

转载 Levenshtein莱文斯坦计算相似度距离

https://github.com/ztane/python-Levenshtein/https://pypi.org/project/python-Levenshtein/Levenshtein.distance(str1,str2)1.百度百科介绍：Levenshtein 距离，又称编辑距离，指的是两个字符串之间，由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包...

2019-11-13 14:44:28 4776

转载 None vs NaN要点总结

在pandas中，如果其他的数据都是数值类型， pandas会把None自动替换成NaN, 甚至能将s[s.isnull()]= None,和s.replace(NaN, None)操作的效果无效化。这时需要用where函数才能进行替换s.where(s.notnull(), None)。 None能够直接被导入数据库作为空值处理，包含NaN的数据导入时会报错。 numpy和pandas...

2019-11-13 11:39:41 265

相比传统的方式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作而备受青睐,尤其是在数据列column数很多,单词操作仅针对若干列的情景,列式存储引擎的性价比更高.在互联网数据应用场景下,大部分情况下,数据很大且数据字段很多,但每次查询数据只针对其中的少数几行,这时候列式存储是极佳的选择,目前在开源实现中,最有名的列式存储引擎parquet 和orc ,在最近一年内,他们都晋升apache顶...

2019-11-12 11:24:03 10621 2

转载 Spark在Windows下的环境搭建

一、JDK的安装1、1 下载JDK　　首先需要安装JDK，并且将环境变量配置好，如果已经安装了的老司机可以忽略。JDK（全称是JavaTM Platform Standard Edition Development Kit）的安装，去Oracle官网下载，下载地址是Java SE Downloads。　　上图中两个用红色标记的地方都是可以点击的，点击进去之后可以看到这个最新版本的...

2019-11-08 14:25:53 197

原创 jetbrains官网不能访问

登陆不上http://www.jetbrains.com/可能是由于以前修改过 C:\Windows\System32\drivers\etc 下的hosts文件可用notepad++将这两行注释掉

2019-11-08 13:12:18 13351 6

转载一致性哈希算法应用与分析

一致性哈希算法主要使用在分布式数据存储系统中，按照一定的策略将数据尽可能均匀分布到所有的存储节点上去，使得系统具有良好的负载均衡性能和扩展性。感觉一致性哈希与数据结构中的“循环队列”还是有一点联系的。1.简单哈希算法　　哈希(hash)计箅是常见的数据分布技术，其通过求模运算来计算哈希值，然后据此将数据映射到存储空间中。由于只是采用了简单的求模运算．使得简单哈希计算存在很多不足：　　1)...

2019-11-05 18:01:36 154

Personalization and Recommendation Systems.pdf

Deep Learning Recommendation Model for Personalization and Recommendation Systems

2019-10-22

Learning and Transferring IDs Representationin E-commerce

LearningandTransferringIDsRepresentationinE-commerce

2019-10-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人