iteye_5035-CSDN博客

原创博客搬家

博客搬家http://blog.csdn.net/fighting_one_piece

2014-08-22 18:26:04 102

Spark学习笔记-安装部署与运行实例

首先解压scala，本次选用版本scala-2.11.1[hadoop@centos software]$ tar -xzvf scala-2.11.1.tgz[hadoop@centos software]$ su -[root@centos ~]# vi /etc/profile添加如下内容：SCALA_HOME=/home/hadoop/software/scala-2...

2014-06-13 17:11:00 170

数据挖掘笔记-聚类-Canopy-2

Canopy并行化处理在Mahout里面有很好的实现，网上有很多人都做过相关的分析，有的写的很详细，本来只想看看Mahout Canopy源码就好了，但还是觉得自己记录下也好。我看的是mahout-distribution-0.9版本。首先先看下CanopyDriver类：run(String[] args)方法里面是一些参数的设置。public static void r...

2014-06-13 12:45:00 196

数据挖掘笔记-聚类-Canopy-1

Canopy聚类算法是一个将对象分组到类的简单、快速、精确地方法。每个对象用多维特征空间里的一个点来表示。这个算法使用一个快速近似距离度量和两个距离阈值 T1>T2来处理。基本的算法是，从一个点集合开始并且随机删除一个，创建一个包含这个点的Canopy，并在剩余的点集合上迭代。对于每个点，如果它的距离第一个点的距离小于T1，然后这个点就加入这个聚集中。除此之外，如果这个距离<T2，然...

2014-06-12 18:02:00 540

数据挖掘笔记-关联规则-FPGrowth-2

前面是单机版的实现，现在通过MapReduce来实现FPGrowth算法，主要用了两个MR,具体过程如下：1、第一个MR扫描所有数据集统计数据集中的频繁一项集，即每个项的出现次数。2、读取第一个MR产生的文件，对频繁一项集排序，然后上传到HDFS上。3、第二个MR扫描所有数据集，并根据第二步产生的排序好的频繁一项集来得出频繁项集。第二个MR的Map阶段过程：首先根据排好序的频繁一...

2014-06-05 17:31:00 232

由于Apriori算法需要多次扫描事务数据库，需要生成候选项集，大大增加了时间与空间的代价，FP Growth算法利用了巧妙的数据结构，大大降低了Aproir挖掘算法的代价，它不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对。为了达到这样的效果，它采用了一种简洁的数据结构，叫做frequent-pattern tree(频繁模式树)。FP-growth算法比Apriori算法快一个数...

2014-06-02 16:55:00 224

数据挖掘笔记-关联规则-Apriori-1

今天看了一下关联规则分析中的Apriori算法，先了解下基本概念：关联规则分析用于发现隐藏在大型数据集中的有意义的联系。在交易数据、关系数据或其他信息载体中，查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。•关联规则挖掘形式化定义：•原始数据描述设I ={i1, i2,…,im}是所有项(item)的集合，若干项的集合，称为项集(Item Se...

2014-05-29 17:17:00 272

数据挖掘笔记-分类-决策树-5

上篇文章里面虽然结合hadoop用到mapreduce去计算属性的增益率，但是发现整个程序似乎也并没有做到并行化处理。后面又看了一些网上的资料，自己又想了想，然后又重新实现了一下决策树，大体思路如下：1、将一个大数据集文件拆分成N个小数据集文件，对数据做好预处理工作，上传到HDFS2、计算HDFS上小数据集文件的最佳分割属性与分割点3、汇总N个小数据集文件的最佳划分，投票选出最佳划分...

2014-05-28 16:38:00 218

数据挖掘笔记-分类-决策树-4

之前写的代码都是单机上跑的，发现现在很流行hadoop,所以又试着用hadoop mapreduce来处理下决策树的创建。因为hadoop接触的也不多，所以写的不好，勿怪。看了一些mahout在处理决策树和随机森林的过程，大体过程是Job只有一个Mapper处理,在map方法里面做数据的转换收集工作，然后在cleanup方法里面去做决策树的创建过程。然后将决策树序列化到HDFS上面，分...

2014-05-28 16:13:00 183

数据挖掘笔记-分类-决策树-3

了解了一些决策树的构建算法后，现在学习下随机森林。还是先上一些基本概念：随机森林是一种比较新的机器学习模型。顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一...

2014-05-28 15:32:00 179

数据挖掘笔记-分类-决策树-2

接着上面说下决策树的一些其他算法：SLIQ、SPRINT、CART。这些算法则是根据Gini指标来计算的。SLIQSLIQ(Supervised Learning In Quest)利用三中数据结构来构造树，分别是属性表、类表和类直方图。SLIQ算法在建树阶段,对连续属性采取预先排序技术与广度优先相结合的策略生成树,对离散属性采取快速求子集算法确定划分条件。具体步骤如下:...

2014-05-28 14:51:00 195

数据挖掘笔记-分类-决策树-1

之前一直做的都是J2EE,最近开始接触数据挖掘，特做笔记记录一下。第一次写东西，写的不好，望大家谅解。先上一些基础概念，大致了解下决策树这个东西：决策树（decision tree）是一个树结构（可以是二叉树或非二叉树）。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相...

2014-05-28 14:21:00 204

原创 Python 清除SVN文件

[size=medium]初学Python，为熟悉文件相关操作，写了一个简单且粗糙的清除项目下svn文件功能。[/size][code="python"]import osimport timeimport statdef clearSVN(destPath): if os.path.isdir(destPath) == False : ...

2014-01-03 10:04:48 192

原创 Python SSH连接

[size=medium]通过paramiko库实现SSH连接功能[/size][code="python"]import osimport paramiko host = '192.168.10.10'port = 22username = 'hadoop'password = 'hadoop'ssh = paramiko.SSHClient()...

2014-01-03 09:58:52 324

Python 简易抓取界面

[size=medium]初学Python,参考相关资料做了个简易抓取网页界面，主要为了增加对python的熟识度。主要是通过urllib2获取预先指定的地址的页面，通过BeautifulSoup来解析界面元素，找到href标签，并将相关的数据存入数据库，以方便后面取出继续抓取。整个抓取和解析也是基于多线程与队列来控制的。做的比较简单与粗糙，后续深入可以改进。[/size][cod...

2014-01-03 09:53:49 425

原创 Python 数据库相关操作

主要是通过python的DBUtils库、MySQLdb库来实现连接池操作数据库[code="python"]import MySQLdbfrom DBUtils.PooledDB import PooledDBclass DBHelper(object): __pool = None def __init__(self):...

2014-01-03 09:36:51 120

原创 Oozie Java代码运行Job

[size=large]相关代码：OozieClient oozieClient = new OozieClient("http://namenode:11000/oozie");Properties conf = oozieClient.createConfiguration();conf.setProperty(OozieClient.APP_PATH, "hdfs://namen...

2014-01-01 20:06:40 184

原创 Oozie运行Hive

[size=large]1.运行Hive需要用到hive-site.xml文件以及对应版本的hive的jar包，于是将hive-site.xml文件和当前所用hive版本下相关的jar包上传到HDFS上面。2.修改examples/apps/hive/workflow.xml文件，主要添加对hive-site.xml配置的支持${hiveSitePath}其中需要注意事项：job-xm...

2014-01-01 19:54:28 433

原创 Oozie运行Hadoop

[size=large]1.解压oozie目录下的oozie-client-3.3.2.tar.gz、oozie-examples.tar.gz、oozie-sharelib-3.3.2.tar.gz2.拷贝examples目录到HDFS上面hadoop fs –copyFromLocal examples /user/hadoop/3.修改oozie目录下examples/apps/...

2014-01-01 19:35:08 122

原创 Oozie安装部署

[size=large]1.oozie包的下载[/size]3.0.*版本或者之前的版本是可以离线安装的(例如oozie-3.0.2-distro.tar.gz)，在往上的版本(例如oozie-3.3.2-distro.tar.gz和oozie-4.0.0-distro.tar.gz等)都是在线安装的版本，需要用到MAVEN工具，在安装过程中可能会碰到依赖问题，可以修改相关的POM文件。...

2014-01-01 19:09:50 117

原创 linux下启动tomcat 报错

转自 http://blog.csdn.net/xiang520jl/article/details/8958642linux 下启动tomcat 报：Neither the JAVA_HOME nor the JRE_HOME environment variable is definedAt least one of these environment variable is...

2013-10-21 16:43:39 179

fighting-one-piece