![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
源远流长
余镇源的技术博客:主要在搜索引擎,大数据,推荐,后端领域
展开
-
看nutch学习hadoop的编程
刚下了最新版本的nutch1.0.*,发现nutch的搜索已经转由solr来实现了。nutch上有很多hadoop的应用,可以作为案例学习,看人家如何使用hadoop来实现,这对于刚接触hadoop编程的人来说,这是一个比较好的选择,怎么说nutch也算是hadoop的起源地。。。新版本的nutch使用的hadoop也是比较新的版本。。看一下nutch的index模块,使用的hadoo原创 2012-07-03 13:27:57 · 1966 阅读 · 0 评论 -
Hive的JDBC方式编程
原文 http://user.qzone.qq.com/165162897/blog/1276050795#!app=2&pos=12760507951.启动hiveServer./hive --service hiveserver2.编写jdbc代码(hiveExample.java)import java.sql.SQLException;im转载 2012-06-27 10:56:59 · 2442 阅读 · 0 评论 -
分布式计算开源框架Hadoop入门实践(一)
原文http://www.infoq.com/cn/articles/hadoop-intro 在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice --日志分析并行分解设计与实现》中有所提到。但是由于统计的内容暂时还是十分简单,所以就采用Memcache作为计数器,结合MySQ转载 2010-09-30 11:30:00 · 944 阅读 · 0 评论 -
hadoop学习(mac 上安装 hadoop伪分布式以及hadoop的eclipse插件)
mac上安装 hadoophttp://andy-ghg.iteye.com/blog/1165453安装后运行bin/hadoop namenode -format 抛出一个warn:2012-06-29 23:28:25.852 java[3256:1903] Unable to load realm info from SCDynamicStore原创 2012-06-29 23:14:47 · 6328 阅读 · 0 评论 -
重新拿起hadoop
为了将多数据源整到hadoop上,将每个表导到hive上,再做大表join,变成一个越级大表,作为某一个搜索业务的数据源,然后再将建索引程序整成MR程序! 为此重新再学起hadoop。先分享一下几个好东西!hadoop原理介绍http://tech.uc.cn/wp-content/uploads/2012/07/Hadoop%E5%8E%9F%E7%90%原创 2013-06-08 13:42:18 · 3413 阅读 · 4 评论 -
单机对大数据的排序处理
引用请声明原文:http://blog.csdn.net/duck_genuine/article/details/9155705由于引用数据以hash的方式放在不同的文件里需要将其合并排序写到一个文件。数据量暂时是有几千万级别。文件的每行是一条json格式的记录,格式如下: { "_id" : { "$oid" : "51ace243bb15094b6c40ada5" }, "c原创 2013-06-23 16:49:47 · 4495 阅读 · 4 评论 -
推荐视频反馈系统设计
反馈系统设计日志收集: 展示:带多一个vids参数,表示展示相关的视频集合,按展示顺序拼接起来 show_vids=12_32_32_32点击: 现有from_vid=1&to_vid=2 从哪个视频点击到哪个视频情况 日志计算:(MR程序实现)from_vid—>to_vid 的点击率存储:原创 2014-03-07 18:37:38 · 3339 阅读 · 0 评论 -
hive 表注释乱码以及show create table语句描述乱码解决
hive 表注释乱码以及show create table语句描述乱码解决原创 2016-03-15 14:58:56 · 11453 阅读 · 0 评论