用python爬取阳光电影的链接

用python爬取阳光电影的链接,并存入文本。把链接直接复制到迅雷软件即可下载电影,方便快捷。python代码如下:

# -*- encoding: utf-8 -*-
"""
@Author: cuiyonghua
@CreateDate: 2020/10/15 3:44 下午
@Description: 
"""
import requests
import re


for page in range(1, 223):
    url = 'http://www.ygdy8.net/html/gndy/dyzz/list_23_'+str(page)+'.html'
    html = requests.get(url)
    html.encoding = "gb2312"
    data = re.findall('<a href="(.*?)" class="ulink">', html.text)  #返回的是列表
    for m in data:
        xqurl = 'http://www.ygdy8.net' + m
        html2 = requests.get(xqurl)
        html2.encoding = 'gb2312'  # 指定编码
        try:
            dyLink = re.findall('<a href="(.*?)">ftp://.*?</a></td>', html2.text)[0]
            print(f'page: {page}, 链接: {dyLink}')
            with open('阳光电影_最新电影链接.txt', 'a', encoding="utf-8") as f:
                f.write(dyLink + '\n')
        except:
            print("没有匹配信息")

爬取结果存入文本如下图:
在这里插入图片描述

好的,以下是利用 Python 爬取豆瓣电影的基本步骤: 1. 安装相关库 我们需要使用 requests 库来发送 HTTP 请求,以及使用 BeautifulSoup 库来解析 HTML 面。你可以使用以下命令安装这两个库: ```python pip install requests beautifulsoup4 ``` 2. 发送 HTTP 请求 我们可以使用 requests 库中的 get 方法来向豆瓣电影的网站发送 HTTP 请求,并获得响应: ```python import requests url = 'https://movie.douban.com/top250' response = requests.get(url) ``` 3. 解析 HTML 面 我们可以使用 BeautifulSoup 库将响应的 HTML 面解析成 BeautifulSoup 对象: ```python from bs4 import BeautifulSoup soup = BeautifulSoup(response.text, 'html.parser') ``` 4. 提取电影数据 在 BeautifulSoup 对象中,我们可以使用 find 或 find_all 方法来查找特定的 HTML 标签和属性。通过查看豆瓣电影 Top250 面的 HTML 结构,我们可以发现每个电影都包含在一个 class 为 "item" 的 div 标签中,而每个电影的名称和评分则分别包含在 class 为 "title" 和 "rating_num" 的 span 标签中。因此,我们可以使用以下代码来提取电影名称和评分: ```python movies = soup.find_all('div', class_='item') for movie in movies: title = movie.find('span', class_='title').text.strip() rating = movie.find('span', class_='rating_num').text.strip() print(title, rating) ``` 以上就是利用 Python 爬取豆瓣电影的基本步骤。当然,还可以根据需要提取更多的电影数据,例如导演、演员、上映时间等。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据知道

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值