本篇文章小编给大家分享一下python爬虫实现爬取同一个网站的多页数据代码实例,文章代码介绍的很详细,小编觉得挺不错的,现在分享给大家供大家参考,有需要的小伙伴们可以来看看。
一、爬虫的目的
从网上获取对你有需要的数据
二、爬虫过程
1、获取url(网址)。
2、发出请求,获得响应。
3、提取数据。
4、保存数据。
三、爬虫功能
可以快速批量的获取想要的数据,不用手动的一个个下载(图片、文字音视频等)
四、使用python爬虫爬取同一网站多页数据
1、需要定位至该标签并获得总页数
def get_page_size(soup):
pcxt=soup.find('div',{'class':'babynames-term-articles'}).find('nav')
pcxt1=pcxt.find('div',{'class':'nav-links'}).findAll('a')
for i in pcxt1[:-1]:
link=i.get('href')
s=str(i)
page=re.sub('','',page1)
page3=re.sub('','',page2)
pagesize=int(page3)
print(pagesize)
return pagesize
Pass
2、更改url来访问网址,也就