爬虫的基本思路如下: 根据URl获取相应页面的html代码 利用正则匹配或者Jsoup等库解析html代码,提取需要的内容 将获取的内容持久化到数据库中 处理好中文字符的编码问题,可以采用多线程提高效率 参考: Java爬虫入门笔记 网页爬虫技术浅析