![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
开源框架
文章平均质量分 83
跳舞的驴子
这个作者很懒,什么都没留下…
展开
-
Nutch 笔记(一):Quick Start
最近用到了nutch,目的是针对指定的一些网站抓取其内容,然后做分析用。 nutch 笔记是我使用nutch过程一系列总结,写下自己的学习经过和大家一起分享,也希望能得到大家的指点 好了,废话少说,言归正传,第一篇:Quick Start,我们的目标是快速的能跑起来,能检索出我们想要的结果。 首先要明白nutch是什么? nutch是一个基于lucene的开源搜索引转载 2014-02-19 11:27:51 · 706 阅读 · 0 评论 -
Tomcat7调试运行环境搭建与源代码分析入门
1. 需要准备好下面这些工具 JDK 1.6+ Maven 2或3 TortoiseSVN 1.7+ (从1.7开始”.svn”目录集中放在一处了,不再每个目录下都放一份) Eclipse 3.5+ 这4个工具不在这里描述怎么配置了,如果你是有两三年开发经验的Java开发人员,正常来讲都一直在用了。 另外,分析tomcat源代码不需要对这4个工具做什么特殊配置。转载 2014-04-20 13:58:15 · 424 阅读 · 0 评论 -
Tomcat 生产服务器性能优化
试想以下这个情景:你已经开发好了一个程序,这个程序的排版很不错,而且有着最前沿的功能和其他一些让你这程序增添不少色彩的元素。可惜的是,程序的性能不怎么地。你也十分清楚,若现在把这款产品推出出市场,肯定会给客户骂得狗血淋头。因为不管样子多么好看,性能才是客户们最需要的。如果你在软件实际运行中 使用了Tomcat服务器,那么这篇文章将能让你学到一些能提高Tomcat服务器性能的方法。在此我先得感谢 I转载 2014-04-20 13:56:17 · 346 阅读 · 0 评论 -
Nginx自定义模块编写:根据post参数路由到不同服务器
Nginx可以轻松实现根据不同的url 或者 get参数来转发到不同的服务器,然而当我们需要根据http包体来进行请求路由时,Nginx默认的配置规则就捉襟见肘了,但是没关系,Nginx提供了强大的自定义模块功能,我们只要进行需要的扩展就行了。 我们来理一下思路,我们的需求是: Nginx根据http包体的参数,来选择合适的路由 在这之前,我们先来考虑另一个问题: 在Ngi转载 2014-05-06 08:29:43 · 590 阅读 · 0 评论 -
使用monit搭建一个监控系统
monit系统启动问题 现象: monit 命令加到 /etc/rc.local中。 如下: monit -v monit status centos 启动的时候, 报错说: monit command not found. 最后,改成命令 /usr/local/monit -v /usr/local/monit status OK 上周用monit转载 2014-03-31 16:47:53 · 726 阅读 · 0 评论 -
pentaho配置教程-有点复杂
原文:http://v2000.info/?p=787 今天在网上看到的,写的windows下如何安装配置Pentaho,很详细,在这里给大家分享一下(: 第一部分:准备工作 1. 安装和配置Java 从Sun Developer Network下载最新的Java JDK,安装。 在Windows中配置Java运行环境: 点击 “我的电脑” – “属性” – “高级转载 2014-02-19 17:20:18 · 5433 阅读 · 1 评论 -
使用HBase处理海量数据系列—Part4—Java API
本文由 ImportNew - 陈 晨 翻译自 dzone。如需转载本文,请先参见文章末尾处的转载要求。 编者注:需要阅读第一篇和第二篇 这是Apache HBase系列文章的第四篇。第三篇中,我们从整体了解了HBase的架构。本文中,我们使用HBase的Java API来建表,插入数据以及按照行主键查询数据。我们也会建立一个限制列范围的基本表查询,以及使用过滤器进行分页查询。转载 2014-02-19 14:20:03 · 661 阅读 · 0 评论 -
开源爬虫Labin,Nutch,Neritrix介绍和对比
Larbin 开发语言:C++ http://larbin.sourceforge.net/index-eng.html larbin是个基于C++的web爬虫工具,拥有易于操作的界面,不过只能跑在LINUX下,在一台普通PC下larbin每天可以爬5百万个页面(当然啦,需要拥有良好的网络) 简介 Larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien A转载 2014-02-19 13:09:27 · 840 阅读 · 0 评论 -
Nutch 笔记(二):Craw more urls and Recrawl
一:Recrawl nutch wiki上有现成的script,我们只需要拿来用用即可 http://wiki.apache.org/nutch/IntranetRecrawl#head-e58e25a0b9530bb6fcdfb282fd27a207fc0aff03 把它放在nutch-0.8.1/bin/recrawl.sh Java代码 ma转载 2014-02-19 11:28:58 · 908 阅读 · 0 评论 -
非常好-- Pentaho4.8 BI server搭建
一 下载解压 1> 从pentaho官网http://community.pentaho.com/ 下载biserver-ce-4.8.0-stable.zip 2> 解压,在biserver-ce目录下执行start-pentaho.bat,在administration-console目录下执行start-pac.bat, 分别启动user console与admin console转载 2014-03-25 18:49:05 · 1717 阅读 · 0 评论