（爬虫入门）爬取豆瓣电影的一周口碑榜

最新推荐文章于 2022-05-30 15:54:03 发布

傍ྂ离ྂ

最新推荐文章于 2022-05-30 15:54:03 发布

阅读量731

点赞数

分类专栏：爬虫 Python 文章标签： python

本文链接：https://blog.csdn.net/BangLiSang/article/details/104926146

版权

Python 同时被 2 个专栏收录

13 篇文章 2 订阅

订阅专栏

爬虫

3 篇文章 0 订阅

订阅专栏

爬取豆瓣电影的一周口碑榜

豆瓣电影
先利用浏览器的开发者选项获取表格的位置

确定位置后利用request库和BeautifulSoup库进行简单的爬取

import requests
from bs4 import BeautifulSoup


def getHTMLText(url):
    try:
        kv = {
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}
        r = requests.get(url, headers=kv, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""


def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, "html.parser")
    body = soup.body
    data = body.find(attrs={'class': 'billboard-bd'})
    trs = data.find_all('tr')
    for tr in trs:
        name = tr.find('a').string
        ulist.append(name)
    return ulist


def printUnivList(ulist):
    num = 1
    for i in ulist:
        print('{:>2}: {:<}'.format(num, i))
        num += 1


def main():
    uinfo = []
    url = "https://movie.douban.com/"
    html = getHTMLText(url)
    fillUnivList(uinfo, html)
    printUnivList(uinfo)


main()

爬取完成

傍ྂ离ྂ

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
（爬虫入门）爬取豆瓣电影的一周口碑榜

爬取豆瓣电影的一周口碑榜先利用浏览器的开发者选项获取表格的位置确定位置后利用request库和BeautifulSoup库进行简单的爬取import requestsfrom bs4 import BeautifulSoupdef getHTMLText(url): try: kv = { 'user-agent': 'Mozill...
复制链接

扫一扫