- 博客(13)
- 资源 (17)
- 收藏
- 关注
原创 记一次log4j日志文件小事故
最近散仙在做公司的一个跟搜索有关的数据分析项目,主要就是统计搜索的转化率,目的主要有以下几个: (1)通过数据分析挖掘,找出搜索业务在整个平台系统里的GMV里所占份额 (2)给公司的搜索算法调优,提供可靠的参考依照 (3)了解从搜索入口到最终交易之间各个阶段的数据比重,主要有搜索点击率,搜索曝光率,搜索添加购物车率,搜索下单率,搜索支付率,以及最终的成交金额等 当然还有其他的一
2015-01-30 21:37:49 908
记一次log4j日志文件小事故
最近散仙在做公司的一个跟搜索有关的数据分析(Pig+Hadoop+MapReduce)项目,主要就是统计搜索的转化率,目的主要有以下几个:(1)通过数据分析挖掘,找出搜索业务在整个平台系统里的GMV里所占份额(2)给公司的搜索算法调优,提供可靠的参考依照(3)了解从搜索入口到最终交易之间各个阶段的数据比重,主要有搜索点击率,搜索曝光率,搜索添加购物车率,搜索下单率,搜索支付率,以及最终...
2015-01-30 21:31:12 135
如何远程读取CDH的hadoop上的HDFS数据?
[b][color=olive][size=large]以前,散仙曾写过一篇如何在win上使用eclipse远程读取HDFS上的数据,不过当时使用的hadoop是1.2版本的,而且还是apache的,今天hadoop的最新版本已经到hadoop2.6了,而我们服务器上的hadoop是CHD5.3的版本,使用的hadoop是hadoop2.5.0版本的。今天,散仙就以hadoop2.x的版本...
2015-01-26 21:37:59 1030
请小心Hadoop2.5.0和Java Web项目集成bug
[b][color=green][size=large]今天,散仙在Myeclipse构建的Java的Web项目里使用hadoop2.5的jar包,去连接Linux系统上的HDFS,做一个数据展示的工程,发生了一个莫名其妙的异常,信息如下:[/size][/color][/b][code="java"]Exception in thread "main" java.lang.NoSuchMet...
2015-01-26 19:43:53 230
原创 Apache Pig入门学习文档(一)
1,Pig的安装 (一)软件要求 (二)下载Pig (三)编译Pig 2,运行Pig (一)Pig的所有执行模式 (二)pig的交互式模式 (三)使用pig脚本执行模式 3,Pig Latin语句的声明 (一)加载数据 (二)使用和处理数据 (三)存储中间数据 (四)存储最终数据 (
2015-01-20 20:45:24 876
Apache Pig入门学习文档(一)
1,Pig的安装 (一)软件要求 (二)下载Pig (三)编译Pig2,运行Pig (一)Pig的所有执行模式 (二)pig的交互式模式 (三)使用pig脚本执行模式3,Pig Latin语句的声明 (一)加载数据 (二)使用和处理数据 (三)存储中间数据 (四)存储最终数据 (五)调试Pig ...
2015-01-20 20:28:10 216
原创 如何使用Pig集成分词器来统计新闻词频?
散仙在上篇文章中,介绍过如何使用Pig来进行词频统计,整个流程呢,也是非常简单,只有短短5行代码搞定,这是由于Pig的内置函数TOKENIZE这个UDF封装了单词分割的核心流程,当然,我们的需求是各种各样的,Pig的内置函数,仅仅解决了80%我们常用的功能,如果稍微我有一些特殊的需求,就会发现内置函数解决不了,不过也无需担忧,Pig开放了各个UDF的接口和抽象类,从加载,转换,过滤,存储等等,都有
2015-01-16 20:36:26 1170
如何使用Pig集成分词器来统计新闻词频?
[img]http://dl2.iteye.com/upload/attachment/0105/3491/7c7b3bef-0dda-3ac6-8cdb-1ecc1dd9c194.jpg[/img][b][color=olive][size=large]散仙在上篇文章中,介绍过如何使用Pig来进行词频统计,整个流程呢,也是非常简单,只有短短5行代码搞定,这是由于Pig的内置函数TOKEN...
2015-01-16 20:26:49 473
原创 5行代码怎么实现Hadoop的WordCount?
初学编程的人,都知道hello world的含义,当你第一次从控制台里打印出了hello world,就意味着,你已经开始步入了编程的大千世界,这和第一个吃螃蟹的人的意义有点类似,虽然这样比喻并不恰当。 如果说学会了使用hello world就代表着你踏入了单机编程的大门,那么学会在分布式环境下使用wordcount,则意味着你踏入了分布式编程的大门。试想一下,你的程序能够成百上千台机器的
2015-01-12 21:48:14 647
Apache Pig5行代码怎么实现Hadoop的WordCount?
[img]http://dl2.iteye.com/upload/attachment/0105/1908/1805d55c-2b7f-3246-b732-02121f8698ac.jpg[/img][b][color=green][size=large]初学编程的人,都知道hello world的含义,当你第一次从控制台里打印出了hello world,就意味着,你已经开始步入了编程的大...
2015-01-12 21:37:14 226
原创 Apache Pig的前世今生
最近,散仙用了几周的Pig来处理分析我们网站搜索的日志数据,感觉用起来很不错,今天就写篇笔记介绍下Pig的由来,除了搞大数据的人,可能很少有人知道Pig是干啥的,包括一些是搞编程的,但不是搞大数据的,还包括一些既不是搞编程的,也不是搞大数据的,而是从事其他行业的朋友,所以很有可能望文生义,一看标题,就乐了,心里就开始默默的翻译了===》 Apache 猪的笔记,看起来Apache的猪,比较厉害
2015-01-07 21:30:50 722
Apache Pig的前世今生
[b][color=olive][size=large]最近,散仙用了几周的Pig来处理分析我们网站搜索的日志数据,感觉用起来很不错,今天就写篇笔记介绍下Pig的由来,除了搞大数据的人,可能很少有人知道Pig是干啥的,包括一些是搞编程的,但不是搞大数据的,还包括一些既不是搞编程的,也不是搞大数据的,而是从事其他行业的朋友,所以很有可能望文生义,一看标题,就乐了,心里就开始默默的翻译了===》 Ap...
2015-01-07 20:25:19 421
大数据,怎么搞?
[img]http://dl2.iteye.com/upload/attachment/0104/9536/aa4c388c-0adb-309d-82d1-58e6bc039aa5.png[/img][b][color=green][size=large] 随着大数据的爆红,数据分析师这个职位也得到了越来越多的关注,千千万万懂些大数据技术的少年们都渴望成为高大上的“大数据科学家”,可是...
2015-01-06 13:29:21 175
protobuf-2.5.0.tar.gz
2015-06-24
luke4.5的jar包
2013-10-29
lucene的索引工具
2013-07-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人