自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

三劫散仙

有问题关注微信公众号:我是攻城师(woshigcs)

  • 博客(13)
  • 资源 (17)
  • 收藏
  • 关注

原创 记一次log4j日志文件小事故

最近散仙在做公司的一个跟搜索有关的数据分析项目,主要就是统计搜索的转化率,目的主要有以下几个: (1)通过数据分析挖掘,找出搜索业务在整个平台系统里的GMV里所占份额 (2)给公司的搜索算法调优,提供可靠的参考依照 (3)了解从搜索入口到最终交易之间各个阶段的数据比重,主要有搜索点击率,搜索曝光率,搜索添加购物车率,搜索下单率,搜索支付率,以及最终的成交金额等 当然还有其他的一

2015-01-30 21:37:49 879

记一次log4j日志文件小事故

最近散仙在做公司的一个跟搜索有关的数据分析(Pig+Hadoop+MapReduce)项目,主要就是统计搜索的转化率,目的主要有以下几个:(1)通过数据分析挖掘,找出搜索业务在整个平台系统里的GMV里所占份额(2)给公司的搜索算法调优,提供可靠的参考依照(3)了解从搜索入口到最终交易之间各个阶段的数据比重,主要有搜索点击率,搜索曝光率,搜索添加购物车率,搜索下单率,搜索支付率,以及最终...

2015-01-30 21:31:12 118

如何远程读取CDH的hadoop上的HDFS数据?

[b][color=olive][size=large]以前,散仙曾写过一篇如何在win上使用eclipse远程读取HDFS上的数据,不过当时使用的hadoop是1.2版本的,而且还是apache的,今天hadoop的最新版本已经到hadoop2.6了,而我们服务器上的hadoop是CHD5.3的版本,使用的hadoop是hadoop2.5.0版本的。今天,散仙就以hadoop2.x的版本...

2015-01-26 21:37:59 1003

请小心Hadoop2.5.0和Java Web项目集成bug

[b][color=green][size=large]今天,散仙在Myeclipse构建的Java的Web项目里使用hadoop2.5的jar包,去连接Linux系统上的HDFS,做一个数据展示的工程,发生了一个莫名其妙的异常,信息如下:[/size][/color][/b][code="java"]Exception in thread "main" java.lang.NoSuchMet...

2015-01-26 19:43:53 210

原创 Apache Pig入门学习文档(一)

1,Pig的安装    (一)软件要求    (二)下载Pig      (三)编译Pig 2,运行Pig    (一)Pig的所有执行模式    (二)pig的交互式模式    (三)使用pig脚本执行模式 3,Pig  Latin语句的声明     (一)加载数据     (二)使用和处理数据    (三)存储中间数据 (四)存储最终数据 (

2015-01-20 20:45:24 843

Apache Pig入门学习文档(一)

1,Pig的安装 (一)软件要求 (二)下载Pig (三)编译Pig2,运行Pig (一)Pig的所有执行模式 (二)pig的交互式模式 (三)使用pig脚本执行模式3,Pig Latin语句的声明 (一)加载数据 (二)使用和处理数据 (三)存储中间数据 (四)存储最终数据 (五)调试Pig ...

2015-01-20 20:28:10 206

原创 如何使用Pig集成分词器来统计新闻词频?

散仙在上篇文章中,介绍过如何使用Pig来进行词频统计,整个流程呢,也是非常简单,只有短短5行代码搞定,这是由于Pig的内置函数TOKENIZE这个UDF封装了单词分割的核心流程,当然,我们的需求是各种各样的,Pig的内置函数,仅仅解决了80%我们常用的功能,如果稍微我有一些特殊的需求,就会发现内置函数解决不了,不过也无需担忧,Pig开放了各个UDF的接口和抽象类,从加载,转换,过滤,存储等等,都有

2015-01-16 20:36:26 1152

如何使用Pig集成分词器来统计新闻词频?

[img]http://dl2.iteye.com/upload/attachment/0105/3491/7c7b3bef-0dda-3ac6-8cdb-1ecc1dd9c194.jpg[/img][b][color=olive][size=large]散仙在上篇文章中,介绍过如何使用Pig来进行词频统计,整个流程呢,也是非常简单,只有短短5行代码搞定,这是由于Pig的内置函数TOKEN...

2015-01-16 20:26:49 458

原创 5行代码怎么实现Hadoop的WordCount?

初学编程的人,都知道hello world的含义,当你第一次从控制台里打印出了hello world,就意味着,你已经开始步入了编程的大千世界,这和第一个吃螃蟹的人的意义有点类似,虽然这样比喻并不恰当。 如果说学会了使用hello world就代表着你踏入了单机编程的大门,那么学会在分布式环境下使用wordcount,则意味着你踏入了分布式编程的大门。试想一下,你的程序能够成百上千台机器的

2015-01-12 21:48:14 634

Apache Pig5行代码怎么实现Hadoop的WordCount?

[img]http://dl2.iteye.com/upload/attachment/0105/1908/1805d55c-2b7f-3246-b732-02121f8698ac.jpg[/img][b][color=green][size=large]初学编程的人,都知道hello world的含义,当你第一次从控制台里打印出了hello world,就意味着,你已经开始步入了编程的大...

2015-01-12 21:37:14 215

原创 Apache Pig的前世今生

最近,散仙用了几周的Pig来处理分析我们网站搜索的日志数据,感觉用起来很不错,今天就写篇笔记介绍下Pig的由来,除了搞大数据的人,可能很少有人知道Pig是干啥的,包括一些是搞编程的,但不是搞大数据的,还包括一些既不是搞编程的,也不是搞大数据的,而是从事其他行业的朋友,所以很有可能望文生义,一看标题,就乐了,心里就开始默默的翻译了===》 Apache 猪的笔记,看起来Apache的猪,比较厉害

2015-01-07 21:30:50 699

Apache Pig的前世今生

[b][color=olive][size=large]最近,散仙用了几周的Pig来处理分析我们网站搜索的日志数据,感觉用起来很不错,今天就写篇笔记介绍下Pig的由来,除了搞大数据的人,可能很少有人知道Pig是干啥的,包括一些是搞编程的,但不是搞大数据的,还包括一些既不是搞编程的,也不是搞大数据的,而是从事其他行业的朋友,所以很有可能望文生义,一看标题,就乐了,心里就开始默默的翻译了===》 Ap...

2015-01-07 20:25:19 408

大数据,怎么搞?

[img]http://dl2.iteye.com/upload/attachment/0104/9536/aa4c388c-0adb-309d-82d1-58e6bc039aa5.png[/img][b][color=green][size=large] 随着大数据的爆红,数据分析师这个职位也得到了越来越多的关注,千千万万懂些大数据技术的少年们都渴望成为高大上的“大数据科学家”,可是...

2015-01-06 13:29:21 158

Core Java SE 9 for the Impatient, 2nd Edition

非常不错的学习java 9的基础相关的知识,建议大家都学习一下

2018-05-28

protobuf-2.5.0.tar.gz

Hadoop2.x安装必须的通信包,google的protobuf协议,google官网已经下载不了了,特地传到此处,供大家使用! 在编译hadoop的时候,是必须要安装这个的,否则编译会失败的

2015-06-24

hadoop插件

基于Hadoop2.2的稳定版本的,eclipse插件,大家以后可以更方便的调试Hadoop程序了。

2013-12-17

luke4.6工具

luke4.6查看索引工具,最新版lucene的查看工具,本人测试过,可以正常使用!

2013-12-05

eclipse插件

hadoop1.2.0的eclipse插件,笔者经过测试可以完美运行,对于刚学习hadoop1。x的同学们,是一份不可多得的好资料。

2013-11-10

luke4.5的jar包

luke4.5的索引查看工具,最新版lucene的索引查看工具,用4.x版本的lucene的朋友们,可以使用luke4.5方便的查看,修改,更新索引了,支持4.5之前的所有lucene索引,有需要的朋友们,下载吧,LZ测试过,可以正常使用。

2013-10-29

Access驱动

jdbc Access驱动,兼容处理03,07+的Access,的增删改查。值得下载

2013-09-23

lucene4.3工具类

lucene4.3增删改查的的一个工具类,对新手来说是一份不可多得的入门资料。

2013-08-15

luke4.4索引查看工具

关于全文检索的最新版Lucene4.4,solr4.4的索引查看工具,新项目的开发的朋友们,可以下载下来,方便查询索引结构。

2013-08-15

网络爬虫heritrix

Heritrix是一个由纯java开发的,开源的Web网络爬虫,其性能优势完全可以和Nutch相媲美,二者各有优缺点!

2013-08-08

向LUCENE搜索引擎中加人中文同义词查询

介绍lucene同义词库的使用,想使用lucene同义词的朋友们,如果不知道原理的可以看下。

2013-08-08

lucene的索引工具

lucene的最新版本的索引查看工具,支持4.x以上的索引查看,分析,非常方便调试,官网只能支持到4.0,本工具支持最新的lucene及solr的4.3版本。

2013-07-18

solr各个热点功能详解

详细介绍了solr中,各个功能的UI页面的使用,以及使用solrj操作solr的代码,比较全面的总结了solr的各个功能点。是不可多得的好资料!

2013-07-11

JAVA EE必知的知识点

能够给JAVA使用者,打好一个坚实的基础,只要把里面的一些东西,掌握了,相信你的内容会更深厚的!!!

2013-07-11

开源搜索引擎solr的介绍及使用

对于solr,lucene,是当前比较火的开源搜索引擎,本文档提供了详细的描述信息

2013-07-11

solr4.3的IK分词器

最新版solr4.3的IK分词器,中文分词效果良好!对付一般的大众分词没有问题

2013-06-25

solrcold与zk集群

关于solr4.3solrcloud与zk+tomcat6.x集群,详细描述。

2013-06-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除