博客专栏  >  综合   >  hadoop与storm笔记

hadoop与storm笔记

hadoop和storm产品体系使用、二次开发、运维的原始笔记

关注
3 已关注
35篇博文
  • hadoop2.x整合手册【4】---mahout0.9安装部署与测试

    基本过程和http://blog.csdn.net/xqj198404/article/details/9619265的一致 需要在bin目录下的mahout文件的头部添加

    2014-06-05 11:11
    885
  • hadoop2.x整合手册【3】---编译sqoop的jar以及client的api调用

    sqoop1.99.3的下载包没有提供sqoopclient的jar,需要使用maven自己编译打包。

    2014-05-26 14:20
    1283
  • hadoop2.x整合手册【2】---sqoop1.9.x安装与部署

    sqoop1.9简介 此版本的sqoop分为服务器和客户端两个部分,

    2014-05-23 17:23
    926
  • hadoop2.x整合手册【1】--hadoop2.x安装与配置

    hadoop2.x整合手册【1】--hadoop2.x安装与配置

    2014-05-21 15:54
    753
  • 待分析数据数值化

    常用的一些数据,如地区、关键词、url网址,这些需要进入到数据挖掘系统中进行处理,而由于算法常用会采用距离计算的方式进行采用,这些数据需要从字符数据转换为数值数据,并且逻辑化。 通常建立一个有自递增...

    2013-12-26 14:45
    620
  • mahout中canopy算法应用于广告点击用户类别识别

    canopy算法基本思想如下: 将数据集向量化得到一个线性集合后放入内存,选择两个距离阈值:T1和T2,其中T1 > T2,T1和T2的值可以用交叉校验来确定;从线性集合中任取一点P,用低计算成本方...

    2013-12-20 18:13
    1074
  • 基于命令行的mahout软件0.8版本Canopy算法分析的数据处理流程

    mahout聚类分析的数据准备分为以下三个步骤: 从数据库提炼你需要处理的数据的字段依据提炼的数据处理为vectors将处理后的vectors数据保存为SequenceFile格式

    2013-12-10 18:36
    1143
  • 对mahout与hadoop的调用关系分析,以及建立统一化平台的思路

    mahout的bin目录下mahout文件的执行程序的代码 if [ "$MAHOUT_JOB" = "" ] ; then echo "ERROR: Could not find mah...

    2013-11-21 17:37
    1828
  • hbase编程demo

    1.在Buildpath添加需要引起用的jar,hbase的软件lib文件下的所有jar 2.创建好一个列名为:c1,c2的表,表名:hbase_table1 import java.io...

    2013-09-30 16:12
    2025
  • hadoop日志【7】----Task process exit with nonzero status of 65

    处理一个13个字段的数据 然后实验用的hadoop集群果然频频出现状况 Task process exit with nonzero status of 65 相似的问题:http://blog.cs...

    2013-12-18 21:03
    1294
  • hadoop日志【6】----mahout的速度

    今天测试mahout的数据提取和处理 结果很郁闷了一下 数据提炼很快,半个小时不到完成了,就处理为vector的了 但是开始使用canopy算法分析就不行了 整整一个小时才跑了4% 而以前相同的数据使...

    2013-12-11 16:24
    754
  • hadoop日志【5】----存储迁移之后

    集群使用的是一台实体加5台虚拟(分布在两台实体机上) 后来实体机的存储不够用了,就把虚拟机转移到了网络存储上 然后就悲剧了 性能急剧下降 是实体机网卡的瓶颈造成的 原来在实体机的时候,虚拟机在进行...

    2013-08-08 10:05
    751
  • hadoop日志【4】----50G数据

    以前测试的数据量最大的才8G左右,而且还是在sqlserver中的数据量 一般运行都在30分钟左右 而sqlserver运行同样的逻辑更快,最多8分钟 决定测试一下能体现hadoop集群优越性的数...

    2013-07-31 10:05
    932
  • hadoop日志【3】---进度不动的reduce过程

    集群的slave由于意外原因在运行过程中突然关机过两台 结果这两台存放hadoop日志的路径权限竟然全部变成root的,hadoop无法保存日志,异常不断 修改了文件权限,然后重新跑任务 结果跑到20...

    2013-07-25 18:27
    1496
  • hadoop日志【2】

    采用了nohup以后,今天再看hive和sqoop的服务就没有问题了

    2013-07-23 09:57
    597
  • hadoop日志【1】--hive服务和sqoop服务运行

    周五下班时将hive服务和sqoop服务打开了 想看看周一是否还运行 结果今天来到一看果然不运行了,看来过了会话时间进程就同时被杀掉了,采用普通的方式果然还是和会话绑定在一起了 研究了一下会话的问题,...

    2013-07-22 10:32
    700
  • 基于storm和hadoop的广告系统研究【5】

    数据关联分析

    2013-12-25 11:26
    854
  • 基于storm和hadoop的广告系统研究【4】

    接上文:上文 (3)系统编码实现

    2013-12-13 18:12
    934
  • 基于storm和hadoop的广告系统研究【3】

    二、基于用户分析的计算广告 基于用户分析的计算广告是直接寻找广告与用户的一致性,当前用户分析主要从IP、注册资料、服务器日志、Cookie、历史数据、浏览器行为等方面切入,其代表性的广告形式为电子商务...

    2013-10-12 17:45
    1160
  • 基于storm和hadoop的广告系统研究【2】

    文中所有实现方案全部基于storm、hadoop以及nosql等开源技术 计算广告学概念:点击此处 计算广告的运作系统主要包括广告算法、广告、语境、受众(用户)四个方面,针对这四个方面当下的广告形...

    2013-10-11 16:05
    982
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部