多页爬取数据

最新推荐文章于 2024-03-14 06:19:07 发布

Watch_dou

最新推荐文章于 2024-03-14 06:19:07 发布

阅读量1.4k

点赞数 1

分类专栏：爬虫文章标签： python 多页爬取

本文链接：https://blog.csdn.net/u012111465/article/details/76377053

版权

爬虫专栏收录该内容

8 篇文章 0 订阅

订阅专栏

BeautifulSoup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，BeautifulSoup就不能自动识别编码方式。这时，你只需要说明一下原始编码方式就ok。参数用lxml就可以，需要另行安装并载入。BeautifulSoup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

爬取一网站多个网页数据：

from bs4 import BeautifulSoup
import requests
import lxml
import time
url='https://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html'
urls = ['https://www.tripadvisor.cn/Attractions-g60763-Activities-oa{}-New_York_City_New_York.html#ATTRACTION_LIST'.format(str(i)) for i in range(30,1110,30)]  
def get_attractions(url):
    web_data = requests.get(url)
    time.sleep(2)
    soup = BeautifulSoup(web_data.text,'lxml')
    imgs = soup.select('img[width="180"]')
    titles = soup.select('#ATTR_ENTRY_ > div.attraction_clarity_cell > div > div > div.listing_info > div.listing_title > a')
    scores = soup.select('#ATTR_ENTRY_ > div.attraction_clarity_cell > div > div > div.listing_info > div.listing_rating > div > div > span[alt]')
    comments = soup.select('#ATTR_ENTRY_ > div.attraction_clarity_cell > div > div > div.listing_info > div.listing_rating > div > div > span.more > a')
    cates = soup.select('div.p13n_reasoning_v2')
    for img,title,score,comment,cate in zip(imgs,titles,scores,comments,cates):
        data = {
                'img':img.get('src'),
                'title':title.get_text(),
                'score':score.get('alt'),
                'comment':comment.get_text(),
                'cate':list(cate.stripped_strings)          
                }
        print(data)
for single_url in urls:
    get_attractions(single_url)

爬取数据如下

Watch_dou

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
多页爬取数据

BeautifulSoup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，BeautifulSoup就不能自动识别编码方式。这时，你只需要说明一下原始编码方式就ok。参数用lxml就可以，需要另行安装并载入。BeautifulSoup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解
复制链接

扫一扫