Spider/Crawl
sclxf
大部分文章都是本人发呆之中,左手ctrl c, 右手ctrl v生产出来的。包括这句话。如有侵权,请告知。贵有恒,何以三更眠五更起;最无益,最怕一日曝十日寒。做事提前,不要推后。进步每一天。I Lovin Swimming
展开
-
开源spider
开源spider一览【转载】由 zhanjun 在 周二, 2006-03-21 14:55 提交 http://blog.pvzz.com/post/240.html开源spider一览spider是搜索引擎的必须模块.spider数据的结果直接影响到搜索引擎的评价指标.第一个spider程序由MIT的Matthew K Gray操刀该程序的目的是为了统计互联网中主机的数目Spier定义(关于S转载 2008-11-06 19:51:00 · 794 阅读 · 0 评论 -
webclient
从数据库取出的数据得分页显示,当点击下一页时,javascript做这么一个动作doPostBack(lbNextPage,)使用webclient,可以去发出这个请求。webclient类在System.Net命名空间中存在。相对应的,java也有一个webclient,不过叫做WebShell。地址是www.mozilla.org/projects/blackwood原创 2008-11-08 22:11:00 · 735 阅读 · 0 评论 -
模拟IE(FireFox)的Spider技术介绍
作者:冲出宇宙时间:2007-5-21备注:转载请注明作者。Spider的技术主要是分为2部分,一个是模拟浏览器(IE,FF等),一个是对页面进行分析。后者可能会被认为并不是属于Spider的。第一部分其实是一个工程的问题,它需要比较常的时间构建,第二部分是一个算法的问题,它需要的时间很难说。一、为什么需要模拟IE?不过,可能有朋友会提出一个想法:为什么要模拟IE啊?直接使用IE提供的库多简单的。转载 2008-11-09 19:51:00 · 1556 阅读 · 0 评论 -
从百度MP3搜索结果中提取歌曲列表
1.使用HTMLParser从百度MP3搜索结果中提取歌曲列表"""从百度MP3搜索结果中提取歌曲列表方法是:使用数据结构---栈和级别来实现1.将没有经过的tag全部入栈,经过的全部出栈2.HTML语法错误处理使用级别来实现,栈顶的tag级别最低,如果高级别的tag要出栈,它会先将低级别的tag先出栈,这样可以避免遗漏的错误3.对于错误的处理,先查找是否在栈内,如果没有则直接舍弃.4.每次新的t转载 2008-11-08 22:18:00 · 2092 阅读 · 0 评论 -
java.net.SocketException: No buffer space available (maximum connections reached?): JVM_Bin
爬虫程序运行中出现异常,java.net.SocketException: No buffer space available (maximum connections reached?): JVM_Bin爬虫中使用httpclient,而且是使用了线程池。搜了下发现,别人也有类似问题,解决办法如下,照着改了下程序,看看以后运行中是否还会出现这个问题。 from http://9i转载 2009-10-26 11:06:00 · 10933 阅读 · 0 评论 -
httpclient 如何设置多个checkbox
一个问题不知如何解决,google和baidu都无结果,谁能解决? style="cursor: pointer;" type="checkbox" id="journals" name="source" value="srcJrl" CHECKED>Journalslabel>input style="cursor: pointer;" type="checkbox" id="b原创 2009-11-01 22:41:00 · 1607 阅读 · 5 评论 -
应用HttpClient来对付各种顽固的WEB服务器
http://php.11519.net/5jblog/?p=635 一般的情况下我们都是使用IE或者Navigator浏览器来访问一个WEB服务器,用来浏览页面查看信息或者提交一些数据等等。所访问的这些页面有的仅仅是一些普通的页面,有的需要用户登录后方可使用,或者需要认证以及是一些通过加密方式传输,例如HTTPS。目前我们使用的浏览器处理这些情况都不会构成问题。不过你可能在某些时转载 2009-11-01 22:57:00 · 740 阅读 · 0 评论 -
HttpClient中配置HTTP参数
http://php.11519.net/5jblog/?p=627 关于HttpClient不多说,可以到apache网站下载,网上文档的也多如牛毛。针对HttpClient-3.1,我认为比较重要的一部分就是配置HTTP的参数。实际上,按HttpClient默认的参数配置也可以做简单的应用,其中对于参数配置问题,我觉得虽然比较乱,但是掌握了HttpClient应用参数继承的继承机转载 2009-11-01 23:00:00 · 1457 阅读 · 0 评论