- 博客(12)
- 收藏
- 关注
原创 Beautiful的用法
from bs4 import BeautifulSouphtml_doc = """The Dormouse's storyThe Dormouse's story Once upon a time there were three little sisters; and their names wereElsie,Lacie andTillie;and they lived
2015-10-21 11:33:45 1556 1
原创 八大排序算法总结以及python实现
一、概述 排序有内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。 我们这里说说八大排序就是内部排序。 当n较大,则应采用时间复杂度为O(nlog2n)的排序方法:快速排序、堆排序或归并排序序。 快速排序
2015-10-17 09:43:13 15925 5
原创 python编码问题初探
python编码问题初探主要涉及到的因素:文件编码,python解析器版本,在IDLE下print语句和直接显示的输出差异一、python 2.x如果你用的是2.x版本的python,那么能在IDLE中正常输出的编码是ASCII ,GBK(GB2312),Unicode。如果你想在IDLE解释器中正常显示字符,那么编码必须是三者之一,另外python 2.x中默认的
2015-10-12 20:38:25 1309
原创 常用距离和相似度度量
在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3,
2015-10-08 16:44:18 4684
转载 Spectral Algorithm
Spectral Algorithm[转自网络,参考用]有关Spectral Algorithmsigchi结束之后,这两天看了下spectral algorithm的一些相关的paper。现在给大家简要介绍一下。有什么意见和建议板上提就好了。一. 为什么选这个题目?主要原因是去年在微软做的项目里用到了Spectral clustering,当时只是拿来用,
2015-10-07 20:26:26 1074
原创 Machine Learning Algorithms Study Notes(4)—无监督学习(unsupervised learning)
1 Unsupervised Learning 1.1 k-means clustering algorithm 1.1.1 算法思想 1.1.2 k-means的不足之处 1.1.3 如何选择K值 1.1.4 Spark MLlib 实现 k-means 算法 1.2 Mixtur
2015-10-05 11:00:20 2269
转载 十八道海量数据处理面试题与相关知识详解
海量数据处理面试题与相关知识讲解 第一部分 十八道海量数据处理面试题1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件的大小为5G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。遍
2015-10-05 10:29:30 1877
原创 数据挖掘之异常点检测
异常点检测方法一、基本概念 异常对象被称作离群点。异常检测也称偏差检测和例外挖掘。 常见的异常成因:数据来源于不同的类(异常对象来自于一个与大多数数据对象源(类)不同的源(类)的思想),自然变异,以及数据测量或收集误差。 异常检测的方法:(1)基于模型的技术:首先建立一个数据模型,异常是那些同模型不能完美拟合的对象;如果模型是簇
2015-10-04 22:23:26 14199
原创 数据挖掘之聚类
聚类一、聚类综述 聚类分析提供由个别数据对象到数据对象所指派到簇的抽象。此外,一些聚类技术使用簇原型(即代表簇中其他对象的数据对象)来刻画簇的特征。聚类分析是研究发现最具有代表性的簇原型的技术。回归和PCA的时间复杂度都是O(m2)。注意:簇的定义是不精确的,而最好的定义依赖于数据的特征和期望的结果。聚类分析与其他将数据对象分组的技术有关。监督学习(也叫监督分类或
2015-10-04 21:33:31 5423 1
原创 数据挖掘之关联分析
数据挖掘之关联分析1、基本概念(1)通常认为项在事物中出现比不出现更重要,因此项是非对称二元变量。(2)关联规则是形如X->Y的蕴涵表达式,其中X和Y是不相交的项集,即X交Y=空。(3)由关联规则作出的推论并不必然蕴涵因果关系。它只表示规则前件和后件中的项明显地同时出现。(4)通常,频繁项集的产生所需的计算开销远大于规则产生所需的
2015-10-04 16:33:13 10462 1
原创 数据挖掘之分类
数据挖掘之分类一、分类综述1、过分拟合问题:过拟合的原因:(1)噪声造成的过分拟合(因为它拟合了误标记的训练记录,导致了对检验集中记录的误分类);(2)根据少量训练记录做出分类决策的模型也容易受过分拟合的影响。(由于训练数据缺乏具有代表性的样本,在没有多少训练记录的情况下,学习算法仍然继续细化模型就会产生这样的模型,当决策树的叶节点没有足够的代表性样本时,很
2015-10-04 10:51:14 7881 1
原创 数据挖掘之数据预处理
数据预处理概论 数据预处理技术包括:聚集、抽样、维规约、特征子集选择、特征创建、离散化、二元化、变量变换。先来看看属性的类型。属性的类型:标称:(定性的)(值仅仅是不同的名字,即只提供足够的信息以区分对象, 如雇员ID,性别);序数(定性的)(值提供足够信息确定对象的序, ,如成绩,街道号码);区间(定量的)(值之间的差别是有意义的,即存在测量单位 如日历日期,摄氏和华
2015-10-04 10:25:59 2330
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人