![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
学习
Little-Spark
路漫漫其修远兮,吾将上下而求索
展开
-
使用目前hadoop内置的序列化类(不使用自定义序列化类),实现流量统计的功能
代码如下: package hadoop2; import java.io.IOException; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import原创 2015-09-04 16:50:10 · 458 阅读 · 0 评论 -
Nutch爬虫爬取视频研究文档
一、爬虫框架说明 爬虫框架使用Nutch1.7+Solr4.3+Jsoup1.7.1。 其中,Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。我们主要用它来爬取页面,检索我们用的Solr框架,它的功能比Nutch自带的搜索强大。 Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展原创 2015-09-25 15:41:01 · 2588 阅读 · 1 评论 -
Redis安装
一、首先安装c的编译环境 参考:http://xueliang1yi.blog.163.com/blog/static/1145570162012102114635764/ yum -y install cpp yum -y install binutils yum -y install glibc yum -y install glibc-kernhea原创 2015-09-20 20:35:49 · 334 阅读 · 0 评论 -
HBase设置jar包运行所需要的环境变量
一、写shell脚本,设置jar包运行所需要的环境变量 vi /download/set_hadoop_classpath pt='.' for jar in `ls /usr/local/hbase/lib/*.jar` do pt=$pt:$jar done 二、当前用户下,生效脚本 source /download/set_hadoop_classpath原创 2015-09-22 07:23:21 · 1663 阅读 · 0 评论 -
大数据项目开发步骤
第一步:需求:数据的输入和数据的产出,大数据技术就好比一台榨汁机,数据输入相当于例如苹果、柠檬等,然后通过榨汁机产出果汁; 第二步:数据量、处理效率、可靠性、可维护性、简洁性; 第三步:数据建模; 第四步:架构设计:数据怎么进来,输出怎么展示,最最重要的是处理流出数据的架构; 第五步:再次思考大数据系统和企业IT系统的交互; 第六步:最终确定选择、规范等; 第七步:基于数据建模写基础服原创 2016-10-07 20:34:59 · 8364 阅读 · 0 评论