ailab-mltk:http://blog.csdn.net/qdhy199148/article/details/49403585
里面最简单,但是很常用的一个部分,就是网络爬虫,从网页上获取文本信息
这里用到两个工具,一个就是Java多线程(基于Java5 以上的线程池模式,区别于过时的Runable),另外一个是一个小工具:Jsoup,用于解析html网页,获取其中的内容,关于Jsoup的使用,这是一个技术活,在下面的描述中会介绍一些基础操作,但主要还是需要师弟们自己去学习:http://www.open-open.com/jsoup/。
demo的功能是,爬取新浪主页的新闻文本内容。
下面我们一步一步来:
新浪首页即是我们的种子页面,首先我们需要获取新浪首页上的全部内容链接
1.用Jsoup获得种子页面的html代码
public class JsoupGetDocument {
public static Document getDocumentByJsoupBasic(String url) {
try {
// 设置连接超时和读数超时
// 设置忽略过期页面
return Jsoup.connect(url).timeout(120000).i