自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

风雪夜归子

喜爱机器学习

  • 博客(12)
  • 收藏
  • 关注

原创 Beautiful的用法

from bs4 import BeautifulSouphtml_doc = """The Dormouse's storyThe Dormouse's story Once upon a time there were three little sisters; and their names wereElsie,Lacie andTillie;and they lived

2015-10-21 11:33:45 1556 1

原创 八大排序算法总结以及python实现

一、概述        排序有内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。        我们这里说说八大排序就是内部排序。        当n较大,则应采用时间复杂度为O(nlog2n)的排序方法:快速排序、堆排序或归并排序序。   快速排序

2015-10-17 09:43:13 15925 5

原创 python编码问题初探

python编码问题初探主要涉及到的因素:文件编码,python解析器版本,在IDLE下print语句和直接显示的输出差异一、python 2.x如果你用的是2.x版本的python,那么能在IDLE中正常输出的编码是ASCII ,GBK(GB2312),Unicode。如果你想在IDLE解释器中正常显示字符,那么编码必须是三者之一,另外python 2.x中默认的

2015-10-12 20:38:25 1309

原创 常用距离和相似度度量

在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3,

2015-10-08 16:44:18 4684

转载 Spectral Algorithm

Spectral Algorithm[转自网络,参考用]有关Spectral Algorithmsigchi结束之后,这两天看了下spectral algorithm的一些相关的paper。现在给大家简要介绍一下。有什么意见和建议板上提就好了。一. 为什么选这个题目?主要原因是去年在微软做的项目里用到了Spectral clustering,当时只是拿来用,

2015-10-07 20:26:26 1074

原创 Machine Learning Algorithms Study Notes(4)—无监督学习(unsupervised learning)

1    Unsupervised Learning    1.1    k-means clustering algorithm   1.1.1    算法思想   1.1.2    k-means的不足之处   1.1.3    如何选择K值    1.1.4    Spark MLlib 实现 k-means 算法  1.2    Mixtur

2015-10-05 11:00:20 2269

转载 十八道海量数据处理面试题与相关知识详解

海量数据处理面试题与相关知识讲解 第一部分   十八道海量数据处理面试题1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件的大小为5G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。遍

2015-10-05 10:29:30 1877

原创 数据挖掘之异常点检测

异常点检测方法一、基本概念    异常对象被称作离群点。异常检测也称偏差检测和例外挖掘。    常见的异常成因:数据来源于不同的类(异常对象来自于一个与大多数数据对象源(类)不同的源(类)的思想),自然变异,以及数据测量或收集误差。    异常检测的方法:(1)基于模型的技术:首先建立一个数据模型,异常是那些同模型不能完美拟合的对象;如果模型是簇

2015-10-04 22:23:26 14199

原创 数据挖掘之聚类

聚类一、聚类综述    聚类分析提供由个别数据对象到数据对象所指派到簇的抽象。此外,一些聚类技术使用簇原型(即代表簇中其他对象的数据对象)来刻画簇的特征。聚类分析是研究发现最具有代表性的簇原型的技术。回归和PCA的时间复杂度都是O(m2)。注意:簇的定义是不精确的,而最好的定义依赖于数据的特征和期望的结果。聚类分析与其他将数据对象分组的技术有关。监督学习(也叫监督分类或

2015-10-04 21:33:31 5423 1

原创 数据挖掘之关联分析

数据挖掘之关联分析1、基本概念(1)通常认为项在事物中出现比不出现更重要,因此项是非对称二元变量。(2)关联规则是形如X->Y的蕴涵表达式,其中X和Y是不相交的项集,即X交Y=空。(3)由关联规则作出的推论并不必然蕴涵因果关系。它只表示规则前件和后件中的项明显地同时出现。(4)通常,频繁项集的产生所需的计算开销远大于规则产生所需的

2015-10-04 16:33:13 10462 1

原创 数据挖掘之分类

数据挖掘之分类一、分类综述1、过分拟合问题:过拟合的原因:(1)噪声造成的过分拟合(因为它拟合了误标记的训练记录,导致了对检验集中记录的误分类);(2)根据少量训练记录做出分类决策的模型也容易受过分拟合的影响。(由于训练数据缺乏具有代表性的样本,在没有多少训练记录的情况下,学习算法仍然继续细化模型就会产生这样的模型,当决策树的叶节点没有足够的代表性样本时,很

2015-10-04 10:51:14 7881 1

原创 数据挖掘之数据预处理

数据预处理概论 数据预处理技术包括:聚集、抽样、维规约、特征子集选择、特征创建、离散化、二元化、变量变换。先来看看属性的类型。属性的类型:标称:(定性的)(值仅仅是不同的名字,即只提供足够的信息以区分对象, 如雇员ID,性别);序数(定性的)(值提供足够信息确定对象的序, ,如成绩,街道号码);区间(定量的)(值之间的差别是有意义的,即存在测量单位 如日历日期,摄氏和华

2015-10-04 10:25:59 2330

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除