2015年10月_风雪夜归子

原创 Beautiful的用法

from bs4 import BeautifulSouphtml_doc = """The Dormouse's storyThe Dormouse's story Once upon a time there were three little sisters; and their names wereElsie,Lacie andTillie;and they lived

2015-10-21 11:33:45 1556 1

原创八大排序算法总结以及python实现

一、概述排序有内部排序和外部排序，内部排序是数据记录在内存中进行排序，而外部排序是因排序的数据很大，一次不能容纳全部的排序记录，在排序过程中需要访问外存。我们这里说说八大排序就是内部排序。当n较大，则应采用时间复杂度为O(nlog2n)的排序方法：快速排序、堆排序或归并排序序。快速排序

2015-10-17 09:43:13 15925 5

原创 python编码问题初探

python编码问题初探主要涉及到的因素：文件编码，python解析器版本，在IDLE下print语句和直接显示的输出差异一、python 2.x如果你用的是2.x版本的python，那么能在IDLE中正常输出的编码是ASCII ，GBK(GB2312)，Unicode。如果你想在IDLE解释器中正常显示字符，那么编码必须是三者之一，另外python 2.x中默认的

2015-10-12 20:38:25 1309

原创常用距离和相似度度量

在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K最近邻（KNN）和K均值（K-Means）。当然衡量个体差异的方法有很多，最近查阅了相关的资料，这里整理罗列下。为了方便下面的解释和举例，先设定我们要比较X个体和Y个体间的差异，它们都包含了N个维的特征，即X=（x1， x2， x3，

2015-10-08 16:44:18 4684

转载 Spectral Algorithm

Spectral Algorithm[转自网络，参考用]有关Spectral Algorithmsigchi结束之后，这两天看了下spectral algorithm的一些相关的paper。现在给大家简要介绍一下。有什么意见和建议板上提就好了。一. 为什么选这个题目？主要原因是去年在微软做的项目里用到了Spectral clustering，当时只是拿来用，

2015-10-07 20:26:26 1074

原创 Machine Learning Algorithms Study Notes(4)—无监督学习（unsupervised learning）

1 Unsupervised Learning 1.1 k-means clustering algorithm 1.1.1 算法思想 1.1.2 k-means的不足之处 1.1.3 如何选择K值 1.1.4 Spark MLlib 实现 k-means 算法 1.2 Mixtur

2015-10-05 11:00:20 2269

转载十八道海量数据处理面试题与相关知识详解

海量数据处理面试题与相关知识讲解第一部分十八道海量数据处理面试题1. 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？方案1：可以估计每个文件的大小为5G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。遍

2015-10-05 10:29:30 1877

原创数据挖掘之异常点检测

异常点检测方法一、基本概念异常对象被称作离群点。异常检测也称偏差检测和例外挖掘。常见的异常成因：数据来源于不同的类（异常对象来自于一个与大多数数据对象源（类）不同的源（类）的思想），自然变异，以及数据测量或收集误差。异常检测的方法：（1）基于模型的技术：首先建立一个数据模型，异常是那些同模型不能完美拟合的对象；如果模型是簇

2015-10-04 22:23:26 14199

原创数据挖掘之聚类

聚类一、聚类综述聚类分析提供由个别数据对象到数据对象所指派到簇的抽象。此外，一些聚类技术使用簇原型（即代表簇中其他对象的数据对象）来刻画簇的特征。聚类分析是研究发现最具有代表性的簇原型的技术。回归和PCA的时间复杂度都是O(m2)。注意：簇的定义是不精确的，而最好的定义依赖于数据的特征和期望的结果。聚类分析与其他将数据对象分组的技术有关。监督学习（也叫监督分类或

2015-10-04 21:33:31 5423 1

原创数据挖掘之关联分析

数据挖掘之关联分析1、基本概念（1）通常认为项在事物中出现比不出现更重要，因此项是非对称二元变量。（2）关联规则是形如X->Y的蕴涵表达式，其中X和Y是不相交的项集，即X交Y=空。（3）由关联规则作出的推论并不必然蕴涵因果关系。它只表示规则前件和后件中的项明显地同时出现。（4）通常，频繁项集的产生所需的计算开销远大于规则产生所需的

2015-10-04 16:33:13 10462 1

原创数据挖掘之分类

数据挖掘之分类一、分类综述1、过分拟合问题：过拟合的原因：（1）噪声造成的过分拟合（因为它拟合了误标记的训练记录，导致了对检验集中记录的误分类）；（2）根据少量训练记录做出分类决策的模型也容易受过分拟合的影响。（由于训练数据缺乏具有代表性的样本，在没有多少训练记录的情况下，学习算法仍然继续细化模型就会产生这样的模型，当决策树的叶节点没有足够的代表性样本时，很

2015-10-04 10:51:14 7881 1

原创数据挖掘之数据预处理

数据预处理概论数据预处理技术包括：聚集、抽样、维规约、特征子集选择、特征创建、离散化、二元化、变量变换。先来看看属性的类型。属性的类型：标称：（定性的）（值仅仅是不同的名字，即只提供足够的信息以区分对象，如雇员ID，性别）；序数（定性的）（值提供足够信息确定对象的序，，如成绩，街道号码）；区间（定量的）（值之间的差别是有意义的，即存在测量单位如日历日期，摄氏和华

2015-10-04 10:25:59 2330

风雪夜归子