- 博客(7)
- 收藏
- 关注
原创 (4)Data.Part3.SimilarityAndDissimilarity
相似性和相异性(区别性,不同性) 相似性就是两个数据个体间的相似程度嘛,相异性就是相对的概念咯。相异性也就是距离,如果我们把数据个体看做是向量,那么相异性就是两个向量间的距离了。相似性与相异性的转换 相似性和相异性通常都用区间[0,1]内的数值来表示。这两种值是负相关的,因此理论上任意单调递减的函数都可以用来进行两种值的转换。比如定义s为相似性的值,d为相异性的值,
2015-05-11 23:16:24 725
原创 (3)Data-Part2.Operations
上部分讲了些跟数据有关的概念,这部分来聊一聊操作。这里讲的操作其实是对数据预处理的操作。大概有以下这些操作。 数据聚合(Aggregation) 数据取样(Sampling) 数据降维 属性子集选取 构建属性 离散化和二分化属性 变量转换 数据聚合 有个思想叫做"les
2015-05-11 21:37:45 407
原创 (2)Data-Part1. Definitions
Data数据集通常表示成数据个体(Data Object)的集合。一条数据记录就是一个个体。常见的数据表示方式可以是表格的:Student IDGenderScore1Male42Female53female3.
2015-05-11 16:34:45 476
原创 (1)Introduction
简介 背景 It行业的发展使得数据的体量越来越大,我们希望从这些数据中提取出有用的信息。面对这些规模巨大而且本身属性不太传统的数据,传统的数据分析工具表示无能为力。于是乎,挑战带来了机遇,数据挖掘抓住了这个机会,直面了挑战,并在实战中证明了自己。 数据挖掘是啥玩意儿 数据挖掘是一个在大量数据中自动发掘有用信息的过程。这些有用信息通常是
2015-05-11 11:10:43 446
原创 Calculation of Vector Similarity
It is a quite fundamental technique in machine learning and other fields to calculate the similarity of two vectors.Given two vectors of n dimensions, as : 1. Euclidean Distance. (as Ed
2015-04-07 15:16:18 568
原创 The best way to deal with large files in Python style
with open(...) as f: for line in f: The with statement handles opening and closing the file, including if an exception is raised in the inner block. Thefor line in f treats the file
2015-04-07 15:00:50 479
转载 Python yield
纯复制黏贴,原文在这:http://blog.csdn.net/preterhuman_peak/article/details/40615201如何生成斐波那契數列斐波那契(Fibonacci)數列是一个非常简单的递归数列,除第一个和第二个数外,任意一个数都可由前两个数相加得到。用计算机程序输出斐波那契數列的前 N 个数是一个非常简单的问题,许多初学者都可以轻易写出如下函数:
2015-04-06 11:49:18 348
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人