爬虫爬取网页的主要流程是:
1.向目标网页发起请求;
2.对于获取到的html文件进行解析;
3.对解析后的数据进行存储。
本次主要是爬取全国城市未来7天的天气预报,爬取对象为中国天气网,爬取的数据存入文本中。
对于html文件的解析采用Jsoup结合正则表达式。
地区代码参考:https://wenku.baidu.com/view/49166e7265ce050877321331.html
实现代码:
public class Spiderweather {
public static void main(String[] args) {
List<String> list = null;
BufferedReader bufr = null;
BufferedWriter bufw = null;
try {
bufr = new BufferedReader(new FileReader(new File("D