自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (8)
  • 收藏
  • 关注

原创 转网络爬虫(Spider)Java实现原理

“网络蜘蛛”或者说“网络爬虫”,是一种能访问网站并跟踪链接的程序,通过它,可快速地画出一个网站所包含的网页地图信息。本文主要讲述如何使用Java编程来构建一个“蜘蛛”,我们会先以一个可复用的蜘蛛类包装一个基本的“蜘蛛”,并在示例程序中演示如何创建一个特定的“蜘蛛”来扫描相关网站并找出死链接。Java语言在此非常适合构建一个“蜘蛛”程序,其内建了对HTTP协议的支持,通过它可以传输大部分的网页信息...

2015-03-10 23:25:23 178

原创 网络爬虫(Spider)Java实现原理(转载)

网络爬虫(Spider)Java实现原理     “网络蜘蛛”或者说“网络爬虫”,是一种能访问网站并跟踪链接的程序,通过它,可快速地画出一个网站所包含的网页地图信息。本文主要讲述如何使用Java编程来构建一个“蜘蛛”,我们会先以一个可复用的蜘蛛类包装一个基本的“蜘蛛”,并在示例程序中演示如何创建一个特定的“蜘蛛”来扫描相关网站并找出死链接。    *  Java语言在此非常适合构建一个“...

2015-03-10 23:19:26 256

原创 网络爬虫之Spider

网络爬虫是搜索引擎的一个重要的部分。爬虫的根本原理就是下载页面,然后进行解析。Web上的存储着海量数据,怎么样才能将海量数据尽快的下载到本机上?这是网络爬虫设计的一个方案。采取多线程技术。以下代码实现了将网页的数据存储到XML文档。希望能提出更好的方案。 [java] view plaincopy import java.awt.*;    impor...

2015-03-10 23:12:02 127

原创 MYSQL 5.6之DBA与开发者指南

构建下一代Web应用与服务简单来说,MySQL 5.6改进了数据库核心的各个功能领域,包括:更好的性能和可伸缩性改进InnoDB引擎的事务吞吐量改进优化器的查询执行时间和诊断更好的应用可用性,支持在线DDL/Schema修改增强开发者的灵活性,支持通过Memcached API访问InnoDB,实现NoSQL功能改进复制功能,满足高性能,自修复的分布式部署需求...

2015-03-10 23:10:10 154

原创 数据库范式总结

数据库表结构设计时,遵从一定的范式(NF,Noraml Form)可以减少数据冗余和操作异常。第一范式(1NF)1NF指的是每个属性值都是不可再分的。满足1NF的关系被称为规范化的关系,1NF也是关系模式应具备的最起码的条件。比如有这样一张表user的两列:namephone_numberphone_number这一列只存储一个电话号码,如果一条数据同时存储了住...

2015-03-10 23:08:33 81

转载 网络爬虫之Spider

网络爬虫是搜索引擎的一个重要的部分。爬虫的根本原理就是下载页面,然后进行解析。Web上的存储着海量数据,怎么样才能将海量数据尽快的下载到本机上?这是网络爬虫设计的一个方案。采取多线程技术。以下代码实现了将网页的数据存储到XML文档。希望能提出更好的方案。 [java] view plaincopyimport java.awt.*;   

2015-03-10 22:45:40 559

转载 java中的集合类

java用集合类来容纳不同种类的数据,这种容纳是建立在未知的基础上,即Java要用有限种类的集合类,来容纳无限种类的数据对象。分类:Java的集合类可以分为三类:集、列表和映射1集(set):和数学上的集合概念相对应,是最简单的一种集合。Set集合中不区分元素的顺序;Set集合中不包含重复元素;2列表(list)(以线性方式储存,以数组,向量,链表)

2015-03-10 22:44:25 338

转载 网络爬虫(Spider)Java实现原理(转载)

网络爬虫(Spider)Java实现原理     “网络蜘蛛”或者说“网络爬虫”,是一种能访问网站并跟踪链接的程序,通过它,可快速地画出一个网站所包含的网页地图信息。本文主要讲述如何使用Java编程来构建一个“蜘蛛”,我们会先以一个可复用的蜘蛛类包装一个基本的“蜘蛛”,并在示例程序中演示如何创建一个特定的“蜘蛛”来扫描相关网站并找出死链接。    *  Java语言在此非常适合构建一个

2015-03-10 22:42:04 481

原创 网络爬虫

最近在写一个程序,去爬热门事件和热门关键词网站上的数据。在这里介绍一下网络爬虫的种种。基本组件网络爬虫也叫做网络蜘蛛,是一种互联网机器人,把需要的网页撷取下来,组织成适当格式存储。它是搜索引擎的重要组成部分,虽然从技术实现上来说,它的难度往往要小于对于得到的网页信息的处理。上面这张图来自维基百科,scheduler调度多个多线程的下载器下载网页,并把信息和元数据存储起来。而通过解...

2015-03-05 22:54:03 194

原创 互联网数据聚合

我们经常需要从互联网上获取数据,在很多情况下,你需要的是特定信息,或者说是符合某些条件的信息,比如:这条需求隐含着两个有普遍意义的步骤:从互联网上聚合符合特定条件的信息;当满足阈值条件时,以某种方式通知用户。事实上有太多做互联网数据聚合的网站了,比如酷讯机票,聚合了各大航空公司的机票信息:再比如一些博客聚合网站等等。现在想想这样的场景:每到一个新地方,自动给...

2015-03-05 22:53:09 261

原创 JVM致命错误日志(hs_err_pid.log)解读

致命错误出现的时候,JVM生成了hs_err_pid<pid>.log这样的文件,其中往往包含了虚拟机崩溃原因的重要信息。因为经常遇到,在这篇文章里,我挑选了一个,并且逐段分析它包含的内容(文件可以在文章最后下载)。默认情况下文件是创建在工作目录下的(如果没权限创建的话JVM会尝试把文件写到/tmp这样的临时目录下面去),当然,文件格式和路径也可以通过参数指定,比如:...

2015-03-05 22:51:50 173

原创 JVM问题定位工具

JDBJDB是基于文本和命令行的调试工具,Jikes在JDB的基础上提供了GUI。熟悉JDB还是有价值的,很多情况下需要我们在命令行下完成简单的debug问题定位。123jdb -classpath bin com.xx.Examplejdb -connect com.sun.jdi.SocketAttach:hostname=myhost,p...

2015-03-05 22:50:19 100

原创 转载 Ehcache详细解读

转载自 http://raychase.iteye.com/blog/1545906Ehcache 是现在最流行的纯Java开源缓存框架,配置简单、结构清晰、功能强大,最初知道它,是从Hibernate的缓存开始的。网上中文的EhCache材料以简单介绍和配置方法居多,如果你有这方面的问题,请自行google;对于API,官网上介绍已经非常清楚,请参见官网;但是很少见到特性说明和对实现原理的...

2015-03-05 22:42:41 93

转载 转载:Ehcache详细解读

Ehcache 是现在最流行的纯Java开源缓存框架,配置简单、结构清晰、功能强大,最初知道它,是从Hibernate的缓存开始的。网上中文的EhCache材料以简单介绍和配置方法居多,如果你有这方面的问题,请自行google;对于API,官网上介绍已经非常清楚,请参见官网;但是很少见到特性说明和对实现原理的分析,因此在这篇文章里面,我会详细介绍和分析EhCache的特性,加上一些自己的理解和思考

2015-02-24 08:44:13 369

使用CXF开发WebService

使用CXF开发WebService的讲解

2010-10-30

DB2的数据备份和恢复

IBMDB2的数据备份和恢复,注意讲解DB2的备份和恢复操作

2010-10-30

COBOL下册.pdf

COBOL的学习资料。是谭浩强老师讲的。

2010-10-30

COBOL上册.pdf

COBOL的学习资料。是谭浩强老师讲的。

2010-10-30

JSP2_0.pdf

这里面将的很全面,大家一起学习。。。。。。。。。

2009-03-13

java面试题基础篇

问题很全的,java面试宝典,很实用。是txt格式的。

2009-03-13

Oracle面试题常见的问题

自己面试时候整理的,50道题带有答案。挺好的。

2009-03-13

c++面试题带有答案的

文件很小是txt格式的,带有答案的。 大家一同来分享。

2009-01-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除