- 博客(5)
- 收藏
- 关注
转载 nutch的抓取目录解释
转载自:http://blog.csdn.net/javaman_chen/article/details/7180076 1、Apache Nutch Apache Nutch是一个用于网络搜索的开源框架,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。 1.1、Nutch的组件结构 WebDB:存储网页数据和连接信息 Fetch lists:将Web
2014-08-13 17:43:21 937
原创 Solr4.4 + hadoop2.0 + nutch1.8
Solr4.4 + hadoop2.0 + nutch1.8 先说一点nutch2.2.1不支持hadoop2.0而1.8是最新版本。如果想用nutch2.2.1需要做代码兼容要修改hadoop和nutch源码。 公司最近要做一个客户的数据分析。在原有的hadoop集群上进行分析。但是该公司的数据需要从固定网上爬取下来。所以就研究了下nutch。但是研究发现hadoop本身就是脱离于nutch
2014-08-13 10:06:39 2011
原创 hive的join和复合数据类型
Hive对一下两个表进行join hive> select * from table1; OK 1 a 2 b 3 c hive> select * from table2; OK 1 e 2 f 4 d 两个表的格式都一样如下: hive> desc table1; OK id
2014-08-01 18:08:31 808
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人