一、需求介绍
本次采集的目标网址为:http://www.globaltechmap.com/。全球技术地图(GLOBAL TECHNOLOGY MAP)网站主要提供了先进产业例如生物、能源、海洋、航空等方面的最新资讯。本次以该网站信息栏下的2024年的文章信息采集为示例,思路是先采集文章的标题信息和该文章对应的详情页的url,再通过详情页的url采集文章的发布时间、国家、正文内容和来源。
二、采集方法
本次使用requests库发送网络请求,使用lxml库的xpath表达式解析和提取响应内容,并将保存到csv文件中。看一下采集的字段内容:
三、代码实现
下面附上完整代码,仅供学习交流:
import csv
import requests