自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (7)
  • 收藏
  • 关注

原创 nutch 2.2.1 InjectorJob 类

InjectorJob 类主要是从文件中读取URL,对URL进行处理后,写入到webpage表中。UrlMapper 类

2015-08-05 21:06:05 311

原创 nutch2.2.1抓取流程

整体流程:InjectorJob => GeneratorJob => FetcherJob => ParserJob => DbUpdaterJob => SolrIndexerJobInjectorJob : 从文件中得到一批种子网页,把它们放到抓取数据库中去GeneratorJob: 从抓取数据库中产生要抓取的页面放到抓取队列中去FetcherJob:   对

2015-08-04 21:11:17 324

原创 Nutch2.2.1 开发环境搭建

1. 环境准备需要的环境有jdk1.7,Eclipse,SVN,ant,以及Eclipse下的两个插件subclipse和IvyDe,下载地http://subclipse.tigris.org/update_1.8.x和http://www.apache.org/dist/ant/ivyde/updatesite。2.从SVN检出项目地址https://svn.apach

2015-08-02 19:56:46 421

原创 nutch2.2.1 mysql 建表语句

CREATE TABLE `webpage` (  `id` varchar(250) NOT NULL,  `headers` blob,  `text` mediumtext,  `status` int(11) DEFAULT NULL,  `markers` blob,  `parseStatus` blob,  `modifiedTime` bigint(20

2015-08-01 21:45:46 759

转载 nutch 过滤字符

今天碰到问题,url正则过滤老是出问题,不爽之下,又打开源码了。Crawl.java里有这么一段for (i = 0; i // generate new segment Path[] segs = generator.generate(crawlDb, segments, -1, topN, System .currentTimeMillis())

2015-08-01 14:05:14 318

转载 nutch 配置crawl-urlfilter.txt,regex-urlfilter.txt和nutch-site.xml

1:解压缩的nutch后,到conf下面修改crawl-urlfilter.txt# accept hosts in MY.DOMAIN.NAME+^http://([a-z0-9]*\.)*apache.org/+^http://([a-z0-9]*\.)*longtask.com/blog/如果有需要可以继续添加相关的站点.     2:修改conf下面的nutch

2015-08-01 08:39:04 1310

原创 nutch protocol not found

eclipse  搭建完成nutch 2.2.1 之后,运行,报错如下:org.apache.nutch.protocol.ProtocolNotFound: protocol not found for url=http at org.apache.nutch.protocol.ProtocolFactory.getProtocol(ProtocolFactory.java:91)

2015-08-01 08:33:46 1169

转载 nutch 学习 过滤器

Nutch的conf目录中有automaton-urlfilter.txt、regex-urlfilter.txt、suffix-urlfilter.txt、prefix-urlfilter.txt、domain-urlfilter.txt几个文件用于实现过滤抓取数据,比如不抓取后缀为gif、exe的文件等,通过修改其中的值可以达到只抓取感兴趣的内容的目的,在一定程度上也有助于提高抓取速度

2015-07-31 23:24:55 318

原创 阅读笔记-我的互联网方法论

最近读了周鸿祎写的书-“我的互联网方法论“,此书通读下来,感觉收获很大,对老周以及360的产品也有了一番新的认识。老周将他自己做产品的心得在书中做了详细的阐述,此书对我最大的启发是让我初步了解到如何做好一个互联网的产品,以及在做的过程中应该注意那些问题,比如产品思维、用户思维、微创新等等;       做互联网产品,首先要对趋势的判断比较准,因为没有人能挡住趋势,例如北京中关村卖3c产品的,如

2015-07-12 16:43:44 399

转载 解决问题的七步法

善于解决问题的能力通常是缜密而系统化思维的产物。解决问题的七个步骤:步骤一: 陈述问题一个主导型的问题或者坚定的建设具体,不笼统有内容的可行动的以决策者下一步所需的行动为重点首要任务对问题进行准确了解步骤二:分析问题使用逻辑树步骤三:去掉所有非关键问题假设及数据之间来回穿梭。使用80/20的思维方式步骤四:制定详细的工作计划提

2015-07-07 00:30:56 978

转载 阅读分享-海尔的人单合一模式

海尔的人单合一模式,已经成为很多企业学习的典范。这个模式说起来,我总结的两点,其中一个模式机会公平,而不是结果公平的机制。第二,真正能让组织里头每一个人发挥自己的才能和价值;     人单合一:人单合一双赢模式这个人可以理解成员工,也可以理解成利益有关方,这是人。单是用户需求,用户价值。人单合一就是怎么样把所有利益有关方、员工、用户融为一体,怎么更好为客户创造价值;双赢体现机制的导向,

2015-07-06 21:58:33 4510

原创 读书笔记-决战大数据

用数据来帮助企业运营和解决问题,数据化运营用数据去解决问题;采用西方式的思考方式,侧重于系统性的分析,对一件事的理解过程,利用数据对之进行细分、归类、对比、溯源以及从动态中找出变化的规律;PIMA   P-目的 purpose  I-定义  Identify  M-量化 measure  A -评估  assess 数据的价值从3个维度考虑 1)识别用户 2)数据对你的价值 3)收

2015-07-06 15:08:40 606

原创 移动互联网对传统软件公司的冲击

传统软件公司如何变革

2015-06-10 21:20:57 795

原创 maven学习笔记

关于maven的配置文件pom.xml说明:maven的坐标元素包括groupId  artifactId version packaging classifier maven的中央仓库包含了世界上大部分流行的开源项目构件  http://repo1.maven.org/maven2指定了当前POM模型的版本,对于maven2 和 maven 3  他的取值必须是4.0.0  

2015-06-04 20:40:05 248

ORA-12838 错误处理

如果用了insert /*+ append */ into table as select .. from table 这样的操作来insert,必须在操作后commit,或是rollback,不然就不能再insert /*+ append */ into table as select .. from table 。ORACLE报出错误如下:ORA-12838: cannot read/...

2009-06-20 11:21:42 1115

crontab 命令详解

cron是一个linux下的定时执行工具,可以在无需人工干预的情况下运行作业。由于Cron 是Linux的内置服务,但它不自动起来,可以用以下的方法启动、关闭这个服务: /sbin/service crond start //启动服务 /sbin/service crond stop //关闭服务 /sbin/service crond restart //重启服务 ...

2009-05-22 16:59:24 89

ORACLE创建DBLINK

以ORACLE 10G 为例说明1. 首先需要在数据库服务器上找出tnsnames.ora 配置对方的主机IP和SID等 ,进入/oracle/product/RAC10g/network/admin$ 目录下 找出tnsnames.ora 然后开始 修改 tnsnames.ora文件 vi tnsnames.ora test= (DESCRIPTION = ...

2009-05-19 18:04:31 83

Tomcat自动加载

在JAVA文件重新编译后,经常要重启Tocat可以,设置它自动加载: 在server.xml里加入的context里加入reloadable=true

2009-05-12 20:27:48 72

ORACLE用户被锁定

ORACLE用户修改密码后,发现这个用户的状态被锁定了,使用如下语句解锁:alter user user_name account unlock;解锁后,发现过一会又锁了,后台发现是应用的某个进程在持续的不断用以前的用户名连接数据库,为了防止数据库账号被锁定,妨碍其他应用和后台进程,就将数据库用户密码锁定的最大连接次数修改了一下:语句如下:alter profile...

2009-05-11 21:48:45 113

mysql数据库字符集问题

向mysql数据库插入汉字的时候,说是data too long 查看我设置的长度 是varchar 长度100,后来想想可能是字符集的问题,重新设置数据库的字符集后就OK!MYSQL:\ CREATE DATABASE DATABASE_NAME CHARACTER SET GBK ; 或者是utf-8都可以;也可以创建表的时候加上数据库字符集的设置-- -----...

2009-05-11 18:09:26 79

原创 java:comp/env/jdbc/datasource 与 jdbc/datasource 的不

理解JNDI中 java:comp/env/jdbc/datasource 与 jdbc/datasource 的不同之处。 在描述JNDI,例如获得数据源时,JNDI地址有两种写法,例如同是 jdbc/testDS 数据源:A: java:comp/env/jdbc/testDSB: jdbc/testDS这两种写法,配置的方式也不尽相同,第一种...

2009-05-09 22:15:03 118

TOMCAT配置MYSQL数据源

1.进入 http://localhost:8080/admin/ conf文件夹下的tomcat-users.xml有管理员的用户名密码等信息。 选择Resources-Data sources进入配置数据源界面,选择Data Source Actions ->选择Create New Data Source,进入配置详细信息界面,内容如下: JND...

2009-05-09 12:26:11 170

TOMCAT新增用户

在TOMCAT目录下面找CONF文件下的tomcat-users.xml,增加

2009-05-09 12:15:19 78

原创 ANT的下载和配置

ANT 下载,ant的配法 下载http://www.apache.org/dist/ant/binaries下的apache-ant-1.7.1-bin.zip 接压安装。 ant的配法: 1。解压ant的包到本地目录。 2。在环境变量中设置ANT_HOME,值为你的安装目录。 3。在环境变量中设置JAVA_HOME,值为你的jdk安装目录。 4。...

2009-05-08 14:10:42 78

原创 web.xml详解

web.xml元素介绍 每一个站的WEB-INF下都有一个web.xml的设定文件,它提供了我们站台的配置设定. web.xml定义: .站台的名称和说明 .针对环境参数(Context)做初始化工作 .Servlet的名称和映射 .Session的设定 .Tag library的对映 .JSP网页设定 .Mime Type处理 .错误处理 .利用J...

2009-05-08 10:53:08 54

IN和EXISTS区别

1.IN和EXISTS:EXISTS要远比IN的效率高。里面关系到full table scan和range scan。几乎将所有的IN操作符子查询改写为使用EXISTS的子查询。IN 一般都是全表扫描 形如select * from t1 where f1 in (select f1 from t2 where t2.fx='x'),其中子查询的where里的条件不受外层查询...

2009-05-06 10:21:42 59

简单的unix命令

vi的两种模式:命令模式和输入模式不论在何种模式下,用户按下ESC键,总能切换到命令模式下面:w 保存编辑后的文件内容,但是不退出:wq 保存编辑后退出ZZ 如果文件已经修改,则保存后退出vi:q 当用户未作任何修改而准备退出vi 如果已经编辑了文件,则不能使用:q:w filename 把编辑后的文件保存到指定的文件中:w! filename 强制把编辑后的文件保存到...

2009-05-06 09:41:48 84

后台执行存储过程

sqlplus -s 用户名/密码@数据库SID

2009-05-06 09:39:40 450

ORACLE查询低效率SQL和耗费内存的SQL

----低效率sqlSELECT EXECUTIONS , DISK_READS, BUFFER_GETS,  ROUND((BUFFER_GETS-DISK_READS)/BUFFER_GETS,2) Hit_radio,  ROUND(DISK_READS/EXECUTIONS,2) Reads_per_run,  SQL_TEXT  FROM  V$SQLAREA  ...

2009-05-06 09:35:59 168

ORACLE闪回技术

1 .误删了一部分数据 (delete) 想回恢复数据,oracle flashback闪回误删除的表数据SQL> alter table ps_audit_groupactivity enable row movement;SQL> flashback table ps_audit_groupactivity to timestamp to_timestamp('2007-04-30...

2009-05-06 09:27:37 54

ResultSet转换为List的方法

ResultSet转换为List的方法 private static List convertList(ResultSet rs) throws SQLException { List list = new ArrayList(); ResultSetMetaData md = rs.getMetaData(); int columnCount = md.getCo...

2009-05-02 23:41:57 123

MYSQL 安装和基本命令

开发使用的TOMCAT 版本5.0.28开发使用的MYSQL数据库mysql-5.0.22MYSQL数据库开发工具Navicat_MySQLJDK1.4基础工作:1.配置环境变量 JDK环境变量:JAVA_HOME TOMCAT环境变量:CATALINA_HOME MYSQL环境变量:MYSQL_HOME 遇到的问题:MYSQL安装耗费时间...

2009-04-22 23:57:39 65

DB2常用命令

日常总结的DB2的常用命令,包括启动数据库、查看实例、DDL、DML语句,数据库备份、监控等

2011-09-20

db2基础教材

DB2基础教材,需要学习DB2数据库的童鞋们,请你们多多下载!

2011-09-20

非常OK 的UML教材

从网上下的比较不错的UML教材,共享出来大家学习学习 共同进步

2010-04-02

EFFECTIVE JAVA

好的JAVA书籍,值得看下,好好分享下吧

2009-05-13

oracle sql 优化

oracle中的sql语句的优化和oracle性能的优化,了解oracle执行sql的原理

2008-08-27

oracle常见问题

ORACLE 学习过程中基础的问题,对刚开始接触oracle数据库的人来说是一笔宝贵的资源

2008-08-27

ruby语言的学习教程

ruby语言的学习教程,很基础,讲解的也很详细,有兴趣的看看

2008-08-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除