python主网站网址是_利用python爬虫怎么爬取同一个网站的多页数据

最新推荐文章于 2021-02-21 07:14:48 发布

shul mate

最新推荐文章于 2021-02-21 07:14:48 发布

阅读量1.1k

点赞数

文章标签： python主网站网址是

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42350314/article/details/113503267

版权

本文详细介绍了如何使用Python爬虫抓取同一网站的多页数据，包括获取URL、发送请求、提取数据和保存数据的步骤，并提供了一个实际的豆瓣Top250电影数据爬取示例。

摘要由CSDN通过智能技术生成

利用python爬虫怎么爬取同一个网站的多页数据

发布时间：2021-01-18 16:19:37

来源：亿速云

阅读：65

作者：Leah

本篇文章为大家展示了利用python爬虫怎么爬取同一个网站的多页数据，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。

从网上获取对你有需要的数据

二、爬虫过程

1、获取url(网址)。

2、发出请求，获得响应。

3、提取数据。

4、保存数据。

三、爬虫功能

可以快速批量的获取想要的数据，不用手动的一个个下载(图片、文字音视频等)

四、使用python爬虫爬取同一网站多页数据

1、需要定位至该标签并获得总页数def get_page_size(soup):

pcxt=soup.find('div',{'class':'babynames-term-articles'}).find('nav')

pcxt1=pcxt.find('div',{'class':'nav-links'}).findAll('a')

for i in pcxt1[:-1]:

link=i.get('href')

s=str(i)

page=re.sub('

page1=re.sub(link,'',page)

page2=re.sub('">','',page1)

page3=re.sub('

','',page2)

pagesize=int(page3)

print(pagesize)

return pagesize

Pass

2、更改url来访问网址，也就是进行主函数的编写if __name__ == '__main__':

url="http://www.sheknows.com/baby-names/browse/a/"

soup=get_requests(url)

page=get_page_size(soup)

for i in range(1,page+1):

url1=url+"page/"+str(i)+"/"

soup1=get_requests(url1)

draw_base_list(soup1)

实例扩展：import requests

from lxml import etree

import re

url="https://movie.douban.com/top250"

header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}

allMovieList=[]

flag = True

while flag:

html = requests.get(url, headers=header).text

list = etree.HTML(html)

lis = list.xpath('//ol[@class="grid_view"]/li')

for oneSelector in lis:

name = oneSelector.xpath("div/div[2]/div[1]/a/span[1]/text()")[0]

score = oneSelector.xpath("div/div[2]/div[2]/div/span[2]/text()")[0]

people = oneSelector.xpath("div/div[2]/div[2]/div/span[4]/text()")[0]

people = re.findall("(.*?)人评价",people)[0]

oneMovieList = [name,score,people]

allMovieList.append(oneMovieList)

#获取下一页地址

try:

next_url = list.xpath('//span[@class="next"]/a/@href')[0]

if next_url:

url = "https://movie.douban.com/top250"+ next_url

except:

flag = False

print(allMovieList)

上述内容就是利用python爬虫怎么爬取同一个网站的多页数据，你们学到知识或技能了吗？如果还想学到更多技能或者丰富自己的知识储备，欢迎关注亿速云行业资讯频道。

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。