自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

PURSUE ONE PIECE

学历代表过去,财力代表现在,学习力代表将来,所见所闻改变一生,不知不觉断送一生。

  • 博客(13)
  • 资源 (21)
  • 收藏
  • 关注

原创 数据挖掘笔记-聚类-DBSCAN-原理与简单实现

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。该算法的目的在于过滤低密度区域,发现稠密度样本点,跟传统的基于层次聚类和划分聚类的凸...

2014-06-30 16:08:49 3406

原创 数据挖掘笔记-聚类-KMeans-原理与简单实现

K-means(k均值)算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。基本算法:1.选择K个点作为初始质心。2.Repeat3.将每个点指派到最近的质心,形成K个簇。4.重新计算每个簇的质心。

2014-06-28 23:52:43 1980

原创 数据挖掘笔记-分类-回归算法-梯度上升

基于Logistic回归和Sigmoid函数的分类,首先看下它的优缺点。优点:计算代价不高,易于理解与实现缺点:容易欠拟合,分类精度可能不高使用数据类型:数值型和标称型数据首先,我们想要的函数应该是能够接受所有的输入然后预测出类别。例如输出0或者1.或许你曾今接触过这种性质的函数,该函数称为海维塞德阶跃函数,也可以直接称为单位阶跃函数。

2014-06-23 17:18:30 4341

原创 数据挖掘笔记-分类-回归算法-最小二乘法

我们在研究两个变量(x, y)之间的相互关系时,通常可以得到一系列成对的数据(x1, y1、x2, y2... xm, ym);将这些数据描绘在x -y直角座标系中(如图1), 若发现这些点在一条直线附近,可以令这条直线方程如(式1-1)。Y计= a0+ a1X                 (式1-1)其中:a0、a1是任意实数为建立这直线方程就要确定a0

2014-06-21 21:14:44 2902

原创 Spark学习笔记-安装部署与运行实例

首先解压scala,本次选用版本scala-2.11.1[hadoop@centos software]$ tar -xzvf scala-2.11.1.tgz[hadoop@centos software]$ su -[root@centos ~]# vi /etc/profile添加如下内容:SCALA_HOME=/home/hadoop/software/scala-2.

2014-06-13 17:11:19 4712

原创 数据挖掘笔记-聚类-Canopy-并行处理分析

Canopy并行化处理在Mahout里面有很好的实现,网上有很多人都做过相关的分析,有的写的很详细,本来只想看看Mahout Canopy源码就好了,但还是觉得自己记录下也好。我看的是mahout-distribution-0.9版本。首先先看下CanopyDriver类:run(String[] args)方法里面是一些参数的设置。public static void

2014-06-13 12:45:07 3051

原创 数据挖掘笔记-聚类-Canopy-原理与简单实现

Canopy聚类算法是一个将对象分组到类的简单、快速、精确地方法。每个对象用多维特征空间里的一个点来表示。这个算法使用一个快速近似距离度量和两个距离阈值 T1>T2来处理。基本的算法是,从一个点集合开始并且随机删除一个,创建一个包含这个点的Canopy,并在剩余的点集合上迭代。对于每个点,如果它的距离第一个点的距离小于T1,然后这个点就加入这个聚集中。除此之外,如果这个距离不可以再做其它Can

2014-06-12 18:02:40 6323 2

原创 Python学习笔记-简易抓取网页-1

主要是通过urllib2获取预先指定的地址的页面,通过BeautifulSoup来解析界面元素,找到href标签,并将相关的数据存入数据库,以方便后面取出继续抓取。整个抓取和解析也是基于多线程与队列来控制的。做的比较简单与粗糙,后续深入可以改进。

2014-06-11 15:00:49 860

原创 Python学习笔记-SSH连接

主要是通过paramiko库实现SSH连接功能,并实现一些远程交互功能推荐安装方式pip install paramiko

2014-06-11 14:55:23 1119

原创 Python学习笔记-数据库操作

主要是通过python的DBUtils库、MySQLdb库来实现连接池操作数据库1.import MySQLdb 2. 3.from DBUtils.PooledDB import PooledDB 4. 5.class DBHelper(object): 6. 7. __pool = None 8. 9. def __init__(

2014-06-11 14:41:08 1020

原创 Python学习笔记-清除项目下SVN文件

1.import os 2.import time 3.import stat 4. 5.def clearSVN(destPath): 6. if os.path.isdir(destPath) == False : 7. return; 8. else : 9. destFileName = os.path.basenam

2014-06-11 14:36:31 802

原创 数据挖掘笔记-关联规则-FPGrowth-MapReduce实现

第二个MR的Reduce阶段过程:Reduce节点接收到从Map节点过来的数据,遍历这个频繁项对应的事务数据集,将它们构建起该频繁项的条件FP树。从条件FP树进而得到包含本频繁项的频繁项集。第二个MR的Map阶段过程:首先根据排好序的频繁一项集将事务数据排好序,然后遍历排好序的事务数据,以频繁项为键,事务数据为值传递给Reduce阶段。3、第二个MR扫描所有数据集,并根据第二步产生的排序好的频繁一项集来得出频繁项集。1、第一个MR扫描所有数据集统计数据集中的频繁一项集,即每个项的出现次数。

2014-06-05 17:31:03 3361

原创 数据挖掘笔记-关联规则-FPGrowth-简单实现

FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,它不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对。对于海量数据,FP-growth的时空复杂度仍然很高,可以采用的改进方法包括数据库划分,数据采样等等。Apriori和FP-Tree都是寻找频繁项集的算法,后面根据频繁项集产生关联规则都是一样的,就不再这里重复了。由于Apriori算法需要多次扫描事务数据库,需要生成候选项集,大大增加了时间与空间的代价,

2014-06-02 16:55:01 3178

多级层次行政区划相关的文件

行政区划相关文件,可以用于https://blog.csdn.net/fighting_one_piece/article/details/93361397这篇文章

2019-09-27

Sqoop-1.4.6 支持多分隔符

Sqoop的1.4.6版本修改部分代码,使--fields-terminated-by支持多分隔符

2017-12-16

企业数据架构及应用

企业数据架构的演发 数据仓库 数据总线及主数据 数据挖掘 数据处理参考架构回顼

2016-03-23

Spark快速数据处理

Spark快速数据处理 Spark Shell 快速开发原型 Spark RDD 交互多种方式 Spark SQL Spark 调优

2016-03-23

winutils.exe hadoop.dll

Hadoop在windows环境下开发所需要的winutils.exe hadoop.dll,所在位置为$HADOOP_HOME/bin

2014-10-18

数据挖掘:概念与技术(原书第3版).pdf

数据挖掘概念与技术(原书第3版).pdf 数据挖掘相关概念与技术

2014-04-10

jbpm4.4_ssh2.rar

jbpm 4.4 整合 struts2 spring hibernate 开发

2013-12-01

flash_builder_4_keygen.rar

flex 开发工具 flash_builder_4_keygen.rar

2013-12-01

hadoop-client-2.2.0.jar

hadoop-client-2.2.0.jar

2013-12-01

jsp分页技术jsp分页技术jsp分页技术jsp分页技术

jsp分页技术jsp分页技术jsp分页技术jsp分页技术jsp分页技术jsp分页技术jsp分页技术jsp分页技术

2010-09-23

java版mysql管理器 4.10.25.949java版mysql管理器 4.10.25.949

java版mysql管理器 4.10.25.949java版mysql管理器 4.10.25.949java版mysql管理器 4.10.25.949

2010-09-23

eclipse快捷键eclipse快捷键eclipse快捷键

eclipse快捷键eclipse快捷键eclipse快捷键eclipse快捷键eclipse快捷键eclipse快捷键

2010-09-23

[Effective.Enterprise.Java.中文版].Effective.Enterprise.Java.Chinese.eBook

[Effective.Enterprise.Java.中文版].Effective.Enterprise.Java.Chinese.eBook

2010-09-22

javascript王者归来

javascript王者归来,一本不错的书。。。。。。。。。。

2010-09-22

学习JAVA的视频网站资料

学习JAVA的视频网站资料,可以让你更加轻松的学习JAVA

2010-09-22

Android开发教程

Android开发教程,可以帮助你学习,成为你的助手

2010-09-22

JAVAJSP的聊天室Java源码

这里面是关于JAVAJSP的聊天室Java源码!相信对很多人是比较有用的!大家可以参考下!

2009-05-29

struts2的rar 下载

这是有关struts2的相关文档资料!希望对你的学习有所帮助!

2009-04-25

struts2v3.0

这是关于struts2的有关学习资料!希望可以对你有所帮助!

2009-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除