acesysu-CSDN博客

原创 (4)Data.Part3.SimilarityAndDissimilarity

相似性和相异性（区别性，不同性）相似性就是两个数据个体间的相似程度嘛，相异性就是相对的概念咯。相异性也就是距离，如果我们把数据个体看做是向量，那么相异性就是两个向量间的距离了。相似性与相异性的转换相似性和相异性通常都用区间[0,1]内的数值来表示。这两种值是负相关的，因此理论上任意单调递减的函数都可以用来进行两种值的转换。比如定义s为相似性的值，d为相异性的值，

2015-05-11 23:16:24 713

原创 (3)Data-Part2.Operations

上部分讲了些跟数据有关的概念，这部分来聊一聊操作。这里讲的操作其实是对数据预处理的操作。大概有以下这些操作。数据聚合（Aggregation）数据取样（Sampling）数据降维属性子集选取构建属性离散化和二分化属性变量转换数据聚合有个思想叫做"les

2015-05-11 21:37:45 397

原创 (2)Data-Part1. Definitions

Data数据集通常表示成数据个体（Data Object）的集合。一条数据记录就是一个个体。常见的数据表示方式可以是表格的：Student IDGenderScore1Male42Female53female3.

2015-05-11 16:34:45 460

原创 (1)Introduction

简介背景 It行业的发展使得数据的体量越来越大，我们希望从这些数据中提取出有用的信息。面对这些规模巨大而且本身属性不太传统的数据，传统的数据分析工具表示无能为力。于是乎，挑战带来了机遇，数据挖掘抓住了这个机会，直面了挑战，并在实战中证明了自己。数据挖掘是啥玩意儿数据挖掘是一个在大量数据中自动发掘有用信息的过程。这些有用信息通常是

2015-05-11 11:10:43 436

原创 Calculation of Vector Similarity

It is a quite fundamental technique in machine learning and other fields to calculate the similarity of two vectors.Given two vectors of n dimensions, as ： 1. Euclidean Distance. (as Ed

2015-04-07 15:16:18 553

原创 The best way to deal with large files in Python style

with open(...) as f: for line in f: The with statement handles opening and closing the file, including if an exception is raised in the inner block. Thefor line in f treats the file

2015-04-07 15:00:50 469

转载 Python yield

纯复制黏贴，原文在这：http://blog.csdn.net/preterhuman_peak/article/details/40615201如何生成斐波那契數列斐波那契（Fibonacci）數列是一个非常简单的递归数列，除第一个和第二个数外，任意一个数都可由前两个数相加得到。用计算机程序输出斐波那契數列的前 N 个数是一个非常简单的问题，许多初学者都可以轻易写出如下函数：

2015-04-06 11:49:18 336

痛苦的信仰