爬虫（8）—— 爬取动漫信息

最新推荐文章于 2024-04-09 16:06:40 发布

无知的小菜鸡

最新推荐文章于 2024-04-09 16:06:40 发布

阅读量762

点赞数

分类专栏： python 爬虫

本文链接：https://blog.csdn.net/weixin_41897680/article/details/106154432

版权

python 爬虫专栏收录该内容

11 篇文章 1 订阅

订阅专栏

网址：电影港
爬取内容：爬取电影港网站中的动漫信息

import requests
import re
from bs4 import BeautifulSoup

hd = h = {'user-agent': 'Mozilla/5.0'}
url = 'http://www.dygangs.com/dmq/'

try:
    # 初始化
    def init(url, hd):
        r = requests.get(url, headers=hd)
        r.raise_for_status
        r.encoding = r.apparent_encoding
        demo = r.text
        soup = BeautifulSoup(demo, 'html.parser')
        return soup

    # 获取动漫信息
    def getInfo(soup):
        table = soup.find_all('table')[5]
        list = table.find_all('a', {'class': 'classlinkclass'})  # 名称
        img = table.find_all('img')       # 图片链接
        for i in range(len(list)):
            print("动漫名称：", list[i].string)
            print("动漫封面：", img[i]['src'])
            print("播放页面：", list[i]['href'])
            print("-*-"*20)

    # 动漫的总页数
    soup = init(url, hd)
    page_num = int(int(soup.find('a', {'title': 'Total record'}).text)/10)

    # 用户输入
    num = (int(input("输入你要爬取那一页的信息：")))
    if num == 1:
        getInfo(soup)
    elif num > 1 and num <= page_num:
        p_url = url+"index_"+str(num)+".htm"
        p_soup = init(p_url, hd)
        getInfo(p_soup)
    else:
        print("输入的页码数不正确")

except:
    print("爬取失败")

在这里插入图片描述
爬取的第二页所在的网页

爬虫 —— 爬取网络小说，详细分析及代码
传送门

无知的小菜鸡

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
爬虫（8）—— 爬取动漫信息

网址：电影港爬取内容：爬取电影港网站中的动漫信息import requestsimport refrom bs4 import BeautifulSouphd = h = {'user-agent': 'Mozilla/5.0'}url = 'http://www.dygangs.com/dmq/'try: # 初始化 def init(url, hd): r = requests.get(url, headers=hd) r.raise_f
复制链接

扫一扫