爬虫的理解
对网站信息进行爬取都是在对网站的源码进行查看和分析的基础上进行的。爬虫的第一步,首先要进入网站,审查元素,根据爬虫的需要选择url地址,进行重点内容的爬取。
requests
requests第三方模块安装导入后,可根据url地址进行网页信息的获取。
requests.get(url) 获取网页。
接下来就可将获取到的信息交给BeautifulSoup进行处理了。
BS4
bs4全名为BeautifulSoup,主要作用是对获取的html标签进行解析。
BeautifulSoup对象:整个html文本对象,可当作Tag对象。然后可在对象中提取需要的内容,保存到想要保存的地方。