2016年05月_我就是喜欢我话多

12月 10月 08月 07月 06月 05月 04月

原创 spark1.6.1及scala2.11.8安装配置

首先，安装spark之前需要安装配置的软件有：JDK，Scala,ssh,Hadoop这些开发平台的安装配置在我之前的博客中都有详细的攻略，需要的请去看看。 hadoop安装配置再此提一句，无论是hadoop，hbase，hive，spark都是需要版本适配的，不然就会多很多步的不必要操作，版本的适配官网上都有，这里写者是使用：jdk1.7+hadoop2.6.4+scala2.11.8+spar

2016-05-31 21:05:28 1945

原创 HIVE简单API使用

近期在学习HIVE，发现网上的代码都是很早以前的版本，我是使用1.1.1版本的hive。根本没法用，也有很多冲突。不过查阅官网，分析包结构，最后还是弄完了。直接把代码帖上来吧。package com.yc.hive;import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import

2016-05-27 20:27:54 974

原创深入Java集合类

最近想吧Java的底层爬得深一些，一方面是为了在日后使用的时候能够选择最合适的方法，二来也是为了能对Java有更加深厚的理解。在研究的过程中，会将所研究得成果写成博客记录起来，也是对自己的学习进行总结。已经有了提纲。接下来需要做的就是循序渐进了。首先说下Java的集合：比较常用的集合我整理成了xmind。如下图：其中Collection 表示一组对象，这些对象也称为 collection

2016-05-21 23:18:52 461

原创 hadoop错误总结

在尝试使用hbase中的数据作为MR（MapReduce）的输入源的时候，遇到了一个看似莫名其妙的问题！这是我的源码package com.yc.hbase.mapreduce;import java.io.IOException;import java.util.Arrays;import java.util.Date;import java.util.List;import org.a

2016-05-17 21:17:10 2390 3

原创 HBase实战

一、包的依赖包的话用maven就很方便的下载了<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.1.2</version> <scope>runtime</sc

2016-05-13 22:16:26 1731 1

原创 Hadoop学习之自己动手做搜索引擎【网络爬虫+倒排索引+中文分词】

一、使用技术Http协议正则表达式队列模式Lucenne中文分词MapReduce二、网络爬虫项目目的通过制定url爬取界面源码，通过正则表达式匹配出其中所需的资源（这里是爬取csdn博客url及博客名），将爬到的资源存入文件中便于制作成倒排索引。根据页面源码垂直爬取csdn网站中的所有博客资源（找到一个超链接就爬取该超链接中的内容）。设计思想建立一个队列对象，首先将传入

2016-05-12 21:16:49 7098 5

原创 MapReduce实战【单表关联】

一、需求描述：从给出的child-parent文本中通过计算输出grandchild-grandparend 例：源文件：child parentTom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack JesseTerry AliceTerry Jes

2016-05-06 00:46:49 936

原创 Hadoop实战【二、MapReduce+自定义数据类型】

一、合久必分——MapReduceHDFS是hadoop的云存储，而MapReduce即是hadoop云计算。MapReduce采用”分而治之“的思想，把对大规模数据集的操作，分发给一个主节点管理下的各分节点共同完成，然后通过整合各分节点的中间结果，得到最终的结果。Map阶段：MapReduce框架将任务的输入数据分割成固定大小的片段（splits），随后将每个spli

2016-05-03 21:36:51 704

原创 Hadoop实战【一、HDFS】

HDFS——不怕故障的海量存储HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)，作为Hadoop的核心技术之一，是分布式计算中数据存储管理的基础。他所具有的高容易、高可靠性、高可扩展性，高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储。1、HDFS体系结构HDFS是一个主/从（Master/Slave）体系结构，它既像传统的文件系统一样，可以

2016-05-03 21:29:13 806

空空如也

Ansj+yarn自定义词包读取不到

2016-09-13

JMS到底如何抓取摄像头的视频流啊！

2016-04-25

TA创建的收藏夹 TA关注的收藏夹

TA关注的人