python爬虫爬取猫眼电影排行

最新推荐文章于 2024-08-09 22:15:00 发布

kt4ngw

最新推荐文章于 2024-08-09 22:15:00 发布

阅读量441

点赞数

本文链接：https://blog.csdn.net/t4ngw/article/details/114866825

版权

python 专栏收录该内容

26 篇文章 4 订阅

订阅专栏

1 爬取网站

猫眼: 点击跳转.

2 代码

import requests  
from bs4 import BeautifulSoup
import time
def get_one_page(url):  
    headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko)\
            Chrome/65.0.3325.162 Safari/537.36'  
    }

    response = requests.get(url, headers=headers)  
    if response.status_code == 200:  
        return response.text  
    return None  
def parse_one_page(soup):
    result = []
    for ul in soup.find_all(name='dd'):
        re = []
        re.append((ul.find(name='i').text))
        re.append((ul.find(name='p').text))
        re.append((ul.find(name='img', attrs='board-img').attrs['data-src']))
        re.append((ul.find(name='p', attrs='star').text))
        re.append((ul.find(name='p', attrs='releasetime').text))
        re.append((ul.find(name='p', attrs='score').text))
        result.append(re)
    return result
def main(offset):
    url = 'http://maoyan.com/board/4?offset=' + str(offset)  
    time.sleep(1)
    html = get_one_page(url)  
    soup = BeautifulSoup(html, 'lxml')
    return parse_one_page(soup)
print(main(10))

3 参考文献

kt4ngw

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫爬取猫眼电影排行

1 爬取网站猫眼: 点击跳转.2 代码import requests from bs4 import BeautifulSoupimport timedef get_one_page(url): headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko)\ Chrome/65.0.3325.16
复制链接

扫一扫