网络爬虫
robinliu2010
这个作者很懒,什么都没留下…
展开
-
学习Jsoup(二)
今天的问题:一、构建数据表,装入文档中文名称和地址 我设计了一个库,id 自增量;name varchar 255;adress varchar 255; 二、将网上的文档名称和地址装入数据表 insert into doc_adress(name,adress) value ('"+name+"','"+url+"') 三、对地址进行修饰,比如加原创 2012-04-05 21:38:10 · 955 阅读 · 0 评论 -
Hibernate框架
Hibernate是一个持久化的框架,它对JDBC进行了轻量级的封装。对于源程序来说没有侵入性。能让我们通过操作实体关系模型来操作数据库。大大减轻了sql语句的书写,事务的处理,查询结果的管理等数据库操作。下面是一张hibernate的基本知识点的框架。总体来说hibernate还是比较好学习的,但是需要深入和优化性能还是需要仔细的研究。转载 2012-05-29 16:47:53 · 321 阅读 · 0 评论 -
lucene2.0+heritrix
由于lucene2.0+heritrix一书示例用的网站(http://mobile.pconline.com.cn/,http://mobile.163.com/)改版了,书上实例不能运行,我又找了一个http://mobile.younet.com/进行开发并成功实现示例,希望感兴趣的同学,近快实践,如果此网站也改了就又得改extractor了,哈哈!search的Extractor代转载 2012-05-20 00:43:14 · 541 阅读 · 0 评论 -
Jsoup 介绍
http://womendu.iteye.com/blog/867363今天给大家介绍一款强大的,方便的,基于Java的Html parser — Jsoup。相比于大家熟悉的HtmlParser,Jsoup显得更强大,更易用。如果你使用过Jquery的选择器,那么当你使用Jsoup时,你会感到是那么的亲切…Jsoup是一个方便于操作HTML的开源的java类库,基于MIT协议发布。其提供转载 2012-05-20 00:49:49 · 506 阅读 · 0 评论 -
web爬虫
这篇文章主要是对web爬虫有个大概的认知。 http://www.iteye.com/topic/816742概览web爬虫web爬虫主要功能是从web中发现,下载以及存储内容。广泛应用于各种搜索引擎中。一个典型的web爬虫主要由以下的部分组成: 能被爬虫识别的URL库。文档下载模块,主要用于从web中下载内容。文档解析模块,用于解析下载文档中的内容,如解析HTML,P转载 2012-05-20 01:12:16 · 1927 阅读 · 0 评论 -
深入理解DOM
发现在进行网页爬取的时候,经常用到DOMhttp://www.w3school.com.cn/htmldom/index.asp上面这个网页有深入介绍,推荐给大家。 HTML 文档对象模型(HTML Document Object Model)定义了访问和处理 HTML 文档的标准方法。您应当具备的基础知识在继续学习之前,您需要对下面的知识有基本的了解:原创 2012-05-20 01:20:12 · 515 阅读 · 0 评论 -
WORD的POI处理与原理
转载自罗刚老师的《解密搜索引擎技术实战》电子工业出版社 Word是微软公司开发的字处理文件格式,以“doc”或者“docx”作为文件后缀名。Apache的POI(http://poi.apache.org/)可以用来在Windows或Linux平台下提取Word文档。用POI提取文本的基本方法如下:public static String readDoc(InputStream is)转载 2012-05-20 07:34:57 · 11091 阅读 · 1 评论 -
CSS 简介
http://www.w3school.com.cn/css/css_intro.asp转载 2012-05-20 07:39:38 · 402 阅读 · 0 评论 -
学习Jsoup(三)
从数据库中读出文档地址,并把地址中的文件装入数据库 这段时间还在研究这个JSOUP,对于一个缺乏网络基础的我来说,确实还得从头学起。 要掌握JSOUP,首先要对HTML和网页知识有清晰的了解,特别是DOM和网页的标签、元素、属性等概念以及应用。 JSOUP有两个功能,一个是装入document,一个是对document进行select,过滤。装载有几种不同形式,比如url、原创 2012-04-05 22:59:42 · 445 阅读 · 0 评论