自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大T的专栏

不积跬步,无以至千里

  • 博客(26)
  • 收藏
  • 关注

原创 微博数据清洗(Python版)

具体介绍请参考: 微博数据清洗(Java版)本文是Python版本的介绍,只有数据清洗部分不含对Excel的操作,包含去除html标签和去掉信息里的url地址。Python的代码相对java简明了太多# -*- coding: UTF-8 -*-'''Created on 2013年12月10日@author: daT dev.tao@gmail.com'''im

2013-12-11 18:09:01 9603 3

原创 微博数据清洗(Java版)

大数据公益大学提供的一份数据,义务处理一下,原始数据是Excel,含有html标签,如下:要求清洗掉html标签,和微博内容中的url地址。主要分为两部分:1.处理文本,清洗数据。2.处理excel读写操作。上代码:ExcelUtil类,包含Excel2003-2007的读写操作,Excel使用Apache POI进行操作,需要jar包如下:

2013-12-10 10:58:24 7215 1

原创 Ubuntu 安装HBase

下载:http://mirror.bit.edu.cn/apache/hbase/stable/官方指南:http://abloz.com/hbase/book.html解压:tar -xzvf hbase-0.96.0-hadoop1-bin.tar.gz进入$hbase/lib下查看相关的hadoop包,看是哪个版本的hadoop。此处只记录伪分布式Hbas

2013-12-07 11:24:51 6042

原创 MapReduce编程实例(六)

前提准备:1.hadoop安装运行正常。Hadoop安装配置请参考:Ubuntu下 Hadoop 1.2.1 配置安装2.集成开发环境正常。集成开发环境配置请参考 :Ubuntu 搭建Hadoop源码阅读环境MapReduce编程实例:MapReduce编程实例(一),详细介绍在集成环境中运行第一个MapReduce程序 WordCount及代码分析

2013-11-25 18:10:03 7389

原创 MapReduce编程实例(五)

前提准备:1.hadoop安装运行正常。Hadoop安装配置请参考:Ubuntu下 Hadoop 1.2.1 配置安装2.集成开发环境正常。集成开发环境配置请参考 :Ubuntu 搭建Hadoop源码阅读环境MapReduce编程实例:MapReduce编程实例(一),详细介绍在集成环境中运行第一个MapReduce程序 WordCount及代码分析

2013-11-24 18:49:06 5782 2

原创 MapReduce编程实例(四)

前提准备:1.hadoop安装运行正常。Hadoop安装配置请参考:Ubuntu下 Hadoop 1.2.1 配置安装2.集成开发环境正常。集成开发环境配置请参考 :Ubuntu 搭建Hadoop源码阅读环境MapReduce编程实例:MapReduce编程实例(一),详细介绍在集成环境中运行第一个MapReduce程序 WordCount及代码分析

2013-11-23 12:38:45 7311 1

原创 MapReduce编程模型

MapReduce编程模型概述MapReduce适用的场景具有共同的特点:任务可以分解为相互独立的子任务。MarReduce编程接口体系结构编程模型位于MapReduce Runtime和应用层之间,共有两层,第一层是Java API,共有5个可编程组件,分别是:InputFormat,Mapper,Partitioner,Reducer,OutputFormate。第二层位于Java

2013-11-21 21:58:48 2058

原创 Hadoop的管理

HDFS文件结构NameNode的文件结构${dfs.name.dir}/current/VERSION                                          /edits                                          /fsimage

2013-11-21 14:09:15 1314

原创 MapReduce编程实例(三)

前提准备:1.hadoop安装运行正常。Hadoop安装配置请参考:Ubuntu下 Hadoop 1.2.1 配置安装2.集成开发环境正常。集成开发环境配置请参考 :Ubuntu 搭建Hadoop源码阅读环境MapReduce编程实例:MapReduce编程实例(一),详细介绍在集成环境中运行第一个MapReduce程序 WordCount及代码分析

2013-11-21 12:31:14 7959 3

原创 MapReduce编程实例(二)

前提准备:1.hadoop安装运行正常。Hadoop安装配置请参考:Ubuntu下 Hadoop 1.2.1 配置安装2.集成开发环境正常。集成开发环境配置请参考 :Ubuntu 搭建Hadoop源码阅读环境MapReduce编程实例:MapReduce编程实例(一),详细介绍在集成环境中运行第一个MapReduce程序 WordCount及代码分析

2013-11-20 17:47:12 10351 3

原创 MapReduce编程实例(一)

前提准备:1.hadoop安装运行正常,请参考2.集成开发环境正常,请参考Ubuntu 搭建Hadoop源码阅读环境开发示例:WordCount本示例详细的介绍如何在集成环境中运行第一个MapReduce程序 WordCount

2013-11-13 23:44:23 30837 5

原创 Ubuntu下 Hadoop 1.2.1 配置安装

本文从我的另外一个博客转过来,以后将大数据方面的都放在此博客。本文一步步记录了 Ubuntu 环境安装Hadoop 1.2.1 ,搭建单机模式以及伪分布式模式,希望对各位和我一样的菜鸟有所帮助,共同学习进步,欢迎交流。尝试2.1安装未遂,由于文件结构不太一样缺乏相关资料,也非做运维的,遂放弃改用成熟的hadoop 1.2.1版本。--------------------------

2013-11-13 22:56:57 3847 2

原创 HDFS详解

HDFS简介HDFS的主要特点:1.处理超大文件2.流式的访问数据3.运行于廉价的商用机器集群上HDFS的局限性:1.不适合低延迟的数据访问2.无法高效存储大量小文件3.不支持多用户写入和任意修改文件。HDFS体系结构HDFS的相关概念1.块块的默认大小使64M2.NameNode和DataNodeNameNode使Master管理集群中的执

2013-11-12 22:27:40 1240

原创 Hive SQL详解

数据定义DDL操作创建Hive Table:CREATE TABLE pokes (foo INT, bar STRING);建立名叫pokes的表,共有两列,第一列使int类型,第二列使string类型报错:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTas

2013-11-11 13:21:59 1644

原创 Hive简介

什么使Hive?Hive是建立在Hadoop上的一套类似SQL的访问接口,可以通过Hive QL实现MapReduce Job。由于Hadoop是批处理系统,具有延迟性,所以Hive也会出现延迟现象。

2013-11-11 12:03:54 1901

原创 Ubuntu 搭建Hadoop源码阅读环境

JDK,Eclipse的安装请参考:Ubuntu 安装 搭建 J2EE 开发环境Ant安装:    下载ant:http://ant.apache.org/bindownload.cgi    解压Ant:    tar -xvzf apache-ant-1.9.2-bin.tar.gz     移动重命名: mv apache-ant-1.9.2/ ~/opt/

2013-11-08 12:46:47 4736 2

原创 Ubuntu 安装 搭建 J2EE 开发环境

一、下载   1.jdk   2.tomcat   3.mysql   4.mysql workbench   5.eclipse javaee二、安装&&配置环境变量 1.jdk 7           解压  tar -xvf jdk-7u25-linux-x64.tar.gz           移动

2013-11-07 14:18:31 2283 1

原创 Ubuntu 安装 Hive

环境配置:Ubuntu 13.10Hadoop 1.2.1下载解压和转移:wget http://mirrors.hust.edu.cn/apache/hive/hive-0.12.0/hive-0.12.0.tar.gztar -xzvf hive-0.12.0.tar.gz mv hive-0.12.0 /opt/配置系统环境变量:sudo vim /e

2013-11-07 11:57:07 5228 3

原创 Python 发送邮件

Python 发送邮件123456789101112131415161718192021222324252627282930

2013-11-05 22:18:25 1255

原创 Python日期处理

Python 日期处理123456789101112131415161718192021222324252627282930

2013-11-05 22:17:29 1177

原创 Python 实现简单的通讯录

简单的通讯录实现,A byte of Python的例子12345678910111213141516171819202122232425262728

2013-11-05 22:16:46 5130

原创 Python 创建文件备份

一个简单的例子,A byte of Python的例子,利用系统自带的命令创建某些文件的备份,放入指定的目录中。简单功能已具有,先记下,今后可以和网盘接口连接。1234567891011121314151617181

2013-11-05 22:15:44 1898

原创 一些常用shell脚步

记录和收集一些常用shell,方便查阅学习,不断更新中。。。***************************************************************************************************************在当前目录下循环建立N个文件#!/bin/bashfor i in $(seq 1 10)

2013-11-05 22:13:23 1030

原创 Hive,Pig,HBase 区别与联系

看了几天的Hadoop生态系统,对Hive,Pig,HBase搞的有些糊涂,查阅时发现糊涂的不止我一个,如某个鸟问的帖子发表的疑问,when to use Hbase and when to use Hive?....请教了google,现总结如下:PigPig是一种数据流语言,用来快速轻松的处理巨大的数据。Pig包含两个部分:Pig Interface,Pig Latin。Pig

2013-11-05 22:10:10 17570 1

原创 关于MapReduce

角色:执行MapReduce任务的角色:JobTracker,TaskTracker,一个Hadoop集群只有一个JobTracker,JobTracker负责管理和调度工作,TaskTracker负责执行工作。 数据流:                                            MapReduce工作的简易图          

2013-11-05 22:08:37 1731

原创 初识Hadoop

古代,人们用牛来拉重物。当一头牛拉不动一根圆木时,他们不曾想过培育 更大更壮的牛。同样,我们也不需要尝试开发超级计算机,而应试着结合使用更多计算机系统。 什么是Hadoop:Hadoop提供了一个可靠的共享存储和分析系统。包括两大核心功能,存储层:HDFS一个分布式文件系统,处理层:MapReduce一个分布式并行计算框架。Hadoop适合进行巨大的离线批处理数据,

2013-11-05 22:07:43 1764

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除