自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

WRM的博客

在这里,你可以看到我的程序员生涯

  • 博客(9)
  • 问答 (2)
  • 收藏
  • 关注

原创 spark1.6.1及scala2.11.8安装配置

首先,安装spark之前需要安装配置的软件有:JDK,Scala,ssh,Hadoop这些开发平台的安装配置在我之前的博客中都有详细的攻略,需要的请去看看。 hadoop安装配置再此提一句,无论是hadoop,hbase,hive,spark都是需要版本适配的,不然就会多很多步的不必要操作,版本的适配官网上都有,这里写者是使用:jdk1.7+hadoop2.6.4+scala2.11.8+spar

2016-05-31 21:05:28 1945

原创 HIVE简单API使用

近期在学习HIVE,发现网上的代码都是很早以前的版本,我是使用1.1.1版本的hive。根本没法用,也有很多冲突。不过查阅官网,分析包结构,最后还是弄完了。直接把代码帖上来吧。package com.yc.hive;import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import

2016-05-27 20:27:54 974

原创 深入Java集合类

最近想吧Java的底层爬得深一些,一方面是为了在日后使用的时候能够选择最合适的方法,二来也是为了能对Java有更加深厚的理解。在研究的过程中,会将所研究得成果写成博客记录起来,也是对自己的学习进行总结。已经有了提纲。接下来需要做的就是循序渐进了。首先说下Java的集合: 比较常用的集合我整理成了xmind。如下图: 其中Collection 表示一组对象,这些对象也称为 collection

2016-05-21 23:18:52 461

原创 hadoop错误总结

在尝试使用hbase中的数据作为MR(MapReduce)的输入源的时候,遇到了一个看似莫名其妙的问题! 这是我的源码package com.yc.hbase.mapreduce;import java.io.IOException;import java.util.Arrays;import java.util.Date;import java.util.List;import org.a

2016-05-17 21:17:10 2390 3

原创 HBase实战

一、包的依赖包的话用maven就很方便的下载了<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.1.2</version> <scope>runtime</sc

2016-05-13 22:16:26 1731 1

原创 Hadoop学习之自己动手做搜索引擎【网络爬虫+倒排索引+中文分词】

一、使用技术Http协议正则表达式队列模式Lucenne中文分词MapReduce二、网络爬虫项目目的 通过制定url爬取界面源码,通过正则表达式匹配出其中所需的资源(这里是爬取csdn博客url及博客名),将爬到的资源存入文件中便于制作成倒排索引。根据页面源码垂直爬取csdn网站中的所有博客资源(找到一个超链接就爬取该超链接中的内容)。设计思想 建立一个队列对象,首先将传入

2016-05-12 21:16:49 7098 5

原创 MapReduce实战【单表关联】

一、需求描述:从给出的child-parent文本中通过计算输出grandchild-grandparend 例: 源文件:child parentTom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack JesseTerry AliceTerry Jes

2016-05-06 00:46:49 936

原创 Hadoop实战【二、MapReduce+自定义数据类型】

一、合久必分——MapReduceHDFS是hadoop的云存储,而MapReduce即是hadoop云计算。MapReduce采用”分而治之“的思想,把对大规模数据集的操作,分发给一个主节点管理下的各分节点共同完成,然后通过整合各分节点的中间结果,得到最终的结果。Map阶段:MapReduce框架将任务的输入数据分割成固定大小的片段(splits),随后将每个spli

2016-05-03 21:36:51 704

原创 Hadoop实战【一、HDFS】

HDFS——不怕故障的海量存储HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),作为Hadoop的核心技术之一,是分布式计算中数据存储管理的基础。他所具有的高容易、高可靠性、高可扩展性,高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储。1、HDFS体系结构HDFS是一个主/从(Master/Slave)体系结构,它既像传统的文件系统一样,可以

2016-05-03 21:29:13 806

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除