java 爬虫
文章平均质量分 96
chenweishaoxing
这个作者很懒,什么都没留下…
展开
-
Heritrix
跳转到主要内容 登录 (或注册) 中文 技术主题软件下载社区技术讲座 developer...原创 2011-12-27 16:57:24 · 194 阅读 · 0 评论 -
htmlpraser
您还未登录!|登录|注册|帮助CSDN首页资讯论坛博客下载搜索更多 habaishi的专栏 目录视图...原创 2011-12-27 19:12:10 · 102 阅读 · 0 评论 -
Java 抓取网页数据
Java 抓取网页数据Java工作题注:很多时候用到抓取网页数据的功能,以前工作中曾经用到过,今天总结了一下目的:抓取网页数据多是读一些地址连续的URL,获得页面信息,进而对页面DOM进行分析,处理得到粗糙的数据,然后进行加工,得到我们想要的内容。首先选择一个地址,比如http://www.51leba.com 代码部分如下: Java...原创 2012-02-08 10:03:52 · 250 阅读 · 0 评论 -
爬虫抓取需要登陆才能被访问的页面
爬虫抓取需要登陆才能被访问的页面2009年09月03日 星期四 下午 11:471. 获取需要登陆才能被访问的页面,HttpClient(扩展HttpWebRequest)来实现使用HttpClient client = new HttpClient("[登陆页面地址]?username=aaa&password=bbb", null, true); //最后一个...原创 2012-02-08 10:05:53 · 2980 阅读 · 0 评论 -
httpparase + httpclient 的使用
使用 HttpClient 和 HtmlParser 实现简易爬虫(一) (2010-04-20 15:30:25)转载▼标签: it分类: 搜索引擎这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用,在此基础上实现了一个简易的网络爬虫 (Crawler),来说明如何使用 HtmlParser 根据需要处理...原创 2012-02-08 10:30:32 · 223 阅读 · 0 评论 -
httpClient 带验证码登录实现
httpClient 带验证码登录实现 博客分类: HttpClient javahttpclient 在实现之前,需要注意一个问题。关于Cookie,如果能很好跟踪上到Cookie,基本上,实现都是小事一碟。 在网络上,有提到过验证码老是提示有错。貌似思路流程都是正确的。兄弟,如果你在半个小时还没搞清楚,先休息一下,听听歌,打打游戏。再想过。 推断为什么会出现这种问题。问题是你登录验证码页面(j...原创 2012-03-02 09:08:03 · 204 阅读 · 0 评论