devtao-CSDN博客

原创微博数据清洗(Python版)

具体介绍请参考：微博数据清洗(Java版)本文是Python版本的介绍，只有数据清洗部分不含对Excel的操作，包含去除html标签和去掉信息里的url地址。Python的代码相对java简明了太多# -*- coding: UTF-8 -*-'''Created on 2013年12月10日@author: daT dev.tao@gmail.com'''im

2013-12-11 18:09:01 9603 3

原创微博数据清洗(Java版)

大数据公益大学提供的一份数据，义务处理一下，原始数据是Excel，含有html标签，如下：要求清洗掉html标签，和微博内容中的url地址。主要分为两部分：1.处理文本，清洗数据。2.处理excel读写操作。上代码：ExcelUtil类，包含Excel2003-2007的读写操作,Excel使用Apache POI进行操作,需要jar包如下：

2013-12-10 10:58:24 7215 1

原创 Ubuntu 安装HBase

下载：http://mirror.bit.edu.cn/apache/hbase/stable/官方指南：http://abloz.com/hbase/book.html解压：tar -xzvf hbase-0.96.0-hadoop1-bin.tar.gz进入$hbase/lib下查看相关的hadoop包，看是哪个版本的hadoop。此处只记录伪分布式Hbas

2013-12-07 11:24:51 6042

原创 MapReduce编程实例（六）

前提准备：1.hadoop安装运行正常。Hadoop安装配置请参考：Ubuntu下 Hadoop 1.2.1 配置安装2.集成开发环境正常。集成开发环境配置请参考：Ubuntu 搭建Hadoop源码阅读环境MapReduce编程实例：MapReduce编程实例（一）,详细介绍在集成环境中运行第一个MapReduce程序 WordCount及代码分析

2013-11-25 18:10:03 7389

原创 MapReduce编程实例（五）

前提准备：1.hadoop安装运行正常。Hadoop安装配置请参考：Ubuntu下 Hadoop 1.2.1 配置安装2.集成开发环境正常。集成开发环境配置请参考：Ubuntu 搭建Hadoop源码阅读环境MapReduce编程实例：MapReduce编程实例（一）,详细介绍在集成环境中运行第一个MapReduce程序 WordCount及代码分析

2013-11-24 18:49:06 5782 2

原创 MapReduce编程实例（四）

前提准备：1.hadoop安装运行正常。Hadoop安装配置请参考：Ubuntu下 Hadoop 1.2.1 配置安装2.集成开发环境正常。集成开发环境配置请参考：Ubuntu 搭建Hadoop源码阅读环境MapReduce编程实例：MapReduce编程实例（一）,详细介绍在集成环境中运行第一个MapReduce程序 WordCount及代码分析

2013-11-23 12:38:45 7311 1

原创 MapReduce编程模型

MapReduce编程模型概述MapReduce适用的场景具有共同的特点：任务可以分解为相互独立的子任务。MarReduce编程接口体系结构编程模型位于MapReduce Runtime和应用层之间，共有两层，第一层是Java API，共有5个可编程组件，分别是：InputFormat,Mapper,Partitioner,Reducer,OutputFormate。第二层位于Java

2013-11-21 21:58:48 2058

原创 Hadoop的管理

HDFS文件结构NameNode的文件结构${dfs.name.dir}/current/VERSION /edits /fsimage

2013-11-21 14:09:15 1314

原创 MapReduce编程实例（三）

前提准备：1.hadoop安装运行正常。Hadoop安装配置请参考：Ubuntu下 Hadoop 1.2.1 配置安装2.集成开发环境正常。集成开发环境配置请参考：Ubuntu 搭建Hadoop源码阅读环境MapReduce编程实例：MapReduce编程实例（一）,详细介绍在集成环境中运行第一个MapReduce程序 WordCount及代码分析

2013-11-21 12:31:14 7959 3

原创 MapReduce编程实例（二）

前提准备：1.hadoop安装运行正常。Hadoop安装配置请参考：Ubuntu下 Hadoop 1.2.1 配置安装2.集成开发环境正常。集成开发环境配置请参考：Ubuntu 搭建Hadoop源码阅读环境MapReduce编程实例：MapReduce编程实例（一）,详细介绍在集成环境中运行第一个MapReduce程序 WordCount及代码分析

2013-11-20 17:47:12 10351 3

原创 MapReduce编程实例（一）

前提准备：1.hadoop安装运行正常,请参考2.集成开发环境正常，请参考Ubuntu 搭建Hadoop源码阅读环境开发示例：WordCount本示例详细的介绍如何在集成环境中运行第一个MapReduce程序 WordCount

2013-11-13 23:44:23 30837 5

原创 Ubuntu下 Hadoop 1.2.1 配置安装

本文从我的另外一个博客转过来，以后将大数据方面的都放在此博客。本文一步步记录了 Ubuntu 环境安装Hadoop 1.2.1 ,搭建单机模式以及伪分布式模式，希望对各位和我一样的菜鸟有所帮助，共同学习进步，欢迎交流。尝试2.1安装未遂，由于文件结构不太一样缺乏相关资料，也非做运维的，遂放弃改用成熟的hadoop 1.2.1版本。--------------------------

2013-11-13 22:56:57 3847 2

原创 HDFS详解

HDFS简介HDFS的主要特点：1.处理超大文件2.流式的访问数据3.运行于廉价的商用机器集群上HDFS的局限性：1.不适合低延迟的数据访问2.无法高效存储大量小文件3.不支持多用户写入和任意修改文件。HDFS体系结构HDFS的相关概念1.块块的默认大小使64M2.NameNode和DataNodeNameNode使Master管理集群中的执

2013-11-12 22:27:40 1240

原创 Hive SQL详解

数据定义DDL操作创建Hive Table:CREATE TABLE pokes (foo INT, bar STRING);建立名叫pokes的表，共有两列，第一列使int类型，第二列使string类型报错：FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTas

2013-11-11 13:21:59 1644

原创 Hive简介

什么使Hive?Hive是建立在Hadoop上的一套类似SQL的访问接口，可以通过Hive QL实现MapReduce Job。由于Hadoop是批处理系统，具有延迟性，所以Hive也会出现延迟现象。

2013-11-11 12:03:54 1901

原创 Ubuntu 搭建Hadoop源码阅读环境

JDK,Eclipse的安装请参考：Ubuntu 安装搭建 J2EE 开发环境Ant安装：下载ant:http://ant.apache.org/bindownload.cgi 解压Ant: tar -xvzf apache-ant-1.9.2-bin.tar.gz 移动重命名： mv apache-ant-1.9.2/ ~/opt/

2013-11-08 12:46:47 4736 2

原创 Ubuntu 安装搭建 J2EE 开发环境

一、下载 1.jdk 2.tomcat 3.mysql 4.mysql workbench 5.eclipse javaee二、安装&&配置环境变量 1.jdk 7 解压 tar -xvf jdk-7u25-linux-x64.tar.gz 移动

2013-11-07 14:18:31 2283 1

原创 Ubuntu 安装 Hive

环境配置：Ubuntu 13.10Hadoop 1.2.1下载解压和转移：wget http://mirrors.hust.edu.cn/apache/hive/hive-0.12.0/hive-0.12.0.tar.gztar -xzvf hive-0.12.0.tar.gz mv hive-0.12.0 /opt/配置系统环境变量：sudo vim /e

2013-11-07 11:57:07 5228 3

原创 Python 发送邮件

Python 发送邮件123456789101112131415161718192021222324252627282930

2013-11-05 22:18:25 1255

原创 Python日期处理

Python 日期处理123456789101112131415161718192021222324252627282930

2013-11-05 22:17:29 1177

原创 Python 实现简单的通讯录

简单的通讯录实现，A byte of Python的例子12345678910111213141516171819202122232425262728

2013-11-05 22:16:46 5130

原创 Python 创建文件备份

一个简单的例子，A byte of Python的例子，利用系统自带的命令创建某些文件的备份，放入指定的目录中。简单功能已具有，先记下，今后可以和网盘接口连接。1234567891011121314151617181

2013-11-05 22:15:44 1898

原创一些常用shell脚步

记录和收集一些常用shell，方便查阅学习，不断更新中。。。***************************************************************************************************************在当前目录下循环建立N个文件#!/bin/bashfor i in $(seq 1 10)

2013-11-05 22:13:23 1030

原创 Hive,Pig,HBase 区别与联系

看了几天的Hadoop生态系统，对Hive,Pig,HBase搞的有些糊涂，查阅时发现糊涂的不止我一个，如某个鸟问的帖子发表的疑问，when to use Hbase and when to use Hive？....请教了google，现总结如下：PigPig是一种数据流语言，用来快速轻松的处理巨大的数据。Pig包含两个部分：Pig Interface,Pig Latin。Pig

2013-11-05 22:10:10 17570 1

原创关于MapReduce

角色：执行MapReduce任务的角色：JobTracker,TaskTracker,一个Hadoop集群只有一个JobTracker,JobTracker负责管理和调度工作，TaskTracker负责执行工作。数据流：　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　MapReduce工作的简易图　　　　　　　　　　

2013-11-05 22:08:37 1731

原创初识Hadoop

古代，人们用牛来拉重物。当一头牛拉不动一根圆木时，他们不曾想过培育更大更壮的牛。同样，我们也不需要尝试开发超级计算机，而应试着结合使用更多计算机系统。什么是Hadoop：Hadoop提供了一个可靠的共享存储和分析系统。包括两大核心功能，存储层：HDFS一个分布式文件系统，处理层：MapReduce一个分布式并行计算框架。Hadoop适合进行巨大的离线批处理数据，

2013-11-05 22:07:43 1764

大T的专栏

原创微博数据清洗(Python版)

原创微博数据清洗(Java版)

原创 Ubuntu 安装HBase

原创 MapReduce编程实例（六）

原创 MapReduce编程实例（五）

原创 MapReduce编程实例（四）

原创 MapReduce编程模型

原创 Hadoop的管理

原创 MapReduce编程实例（三）

原创 MapReduce编程实例（二）

原创 MapReduce编程实例（一）

原创 Ubuntu下 Hadoop 1.2.1 配置安装

原创 HDFS详解

原创 Hive SQL详解

原创 Hive简介

原创 Ubuntu 搭建Hadoop源码阅读环境

原创 Ubuntu 安装搭建 J2EE 开发环境

原创 Ubuntu 安装 Hive

原创 Python 发送邮件

原创 Python日期处理

原创 Python 实现简单的通讯录

原创 Python 创建文件备份

原创一些常用shell脚步

原创 Hive,Pig,HBase 区别与联系

原创关于MapReduce

原创初识Hadoop

空空如也

空空如也