爬虫
文章平均质量分 96
chenweishaoxing
这个作者很懒,什么都没留下…
展开
-
apache httpclient PDF的网络爬虫
import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.net.URLEncoder; import java.util.ArrayList; import java.util.Li...原创 2012-01-04 08:00:31 · 152 阅读 · 0 评论 -
Java 抓取网页数据
Java 抓取网页数据Java工作题注:很多时候用到抓取网页数据的功能,以前工作中曾经用到过,今天总结了一下目的:抓取网页数据多是读一些地址连续的URL,获得页面信息,进而对页面DOM进行分析,处理得到粗糙的数据,然后进行加工,得到我们想要的内容。首先选择一个地址,比如http://www.51leba.com 代码部分如下: Java...原创 2012-02-08 10:03:52 · 261 阅读 · 0 评论 -
爬虫抓取需要登陆才能被访问的页面
爬虫抓取需要登陆才能被访问的页面2009年09月03日 星期四 下午 11:471. 获取需要登陆才能被访问的页面,HttpClient(扩展HttpWebRequest)来实现使用HttpClient client = new HttpClient("[登陆页面地址]?username=aaa&password=bbb", null, true); //最后一个...原创 2012-02-08 10:05:53 · 2990 阅读 · 0 评论 -
httpparase + httpclient 的使用
使用 HttpClient 和 HtmlParser 实现简易爬虫(一) (2010-04-20 15:30:25)转载▼标签: it分类: 搜索引擎这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用,在此基础上实现了一个简易的网络爬虫 (Crawler),来说明如何使用 HtmlParser 根据需要处理...原创 2012-02-08 10:30:32 · 227 阅读 · 0 评论