豆瓣top250爬取

最新推荐文章于 2024-05-13 15:07:13 发布

goodstudy@419

最新推荐文章于 2024-05-13 15:07:13 发布

阅读量180

点赞数

分类专栏：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41007998/article/details/100010075

版权

爬虫专栏收录该内容

7 篇文章 0 订阅

订阅专栏

"""
爬取豆瓣电影Top250
"""

import os
import re
import time
import requests
from bs4 import BeautifulSoup

#开始导入网页
def download(url, page):
    # print(f"正在爬取：{url}p

    # pattern = re(r'(?<=<br/>).*?(?=<)')
    html = requests.get(url).text   # 这里不加text返回<Response [200]>
    soup = BeautifulSoup(html, 'html.parser')#开始解析网页
    lis = soup.select("ol li")#寻找到标记
    for li in lis:
        index = li.find('em').text
        title = li.find('span', class_='title').text
        rating = li.find('span', class_='rating_num').text
        strInfo = re.search('(?<=<br/>).*?(?=<)', str(li.select_one(".bd p")), re.S | re.M).group().strip()#利用正则表达式匹配出来所需要的内容
        infos = strInfo.split('/')#切分
        year = infos[0].strip()
        area = infos[1].strip()
        type = infos[2].strip()
        write_fo_file(index, title, rating, year, area, type)

    page += 25
    if page < 250:
        time.sleep(2)
        base_url = "https://movie.douban.com/top250?start={}&filter="
        url = base_url.format(page)#自动翻页
        download(url, page)




def write_fo_file(index, title, rating, year, area, type):
    title1 = title
    print(title1,  rating)
    list02 = ["title1", "rating"]
    f = open('movie_top3.txt', 'w',encoding='utf-8')
    f.writelines(list02)
    f.write('\n')
    f.closed


def main():
    if os.path.exists('movie_top250.csv'):
        os.remove('movie_top250.csv')

    url = 'https://movie.douban.com/top250'
    download(url, 0)
    print("爬取完毕。")


if __name__ == '__main__':
    main()

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

goodstudy@419 CSDN认证博客专家 CSDN认证企业博客

码龄7年

59: 原创

8万+: 周排名

24万+: 总排名

6万+: 访问

: 等级

1065: 积分

27: 粉丝

40: 获赞

9: 评论

139: 收藏

私信

关注

热门文章

分类专栏

学习资料 5篇
python 46篇
哈希表 11篇
IP 1篇
Git 1篇
EXCEL 4篇
十大排序算法 3篇
后端 2篇
爬虫 7篇
算法 18篇

最新评论

Python 爬取微信公众号文章里的视频
一摩世捷: 这是哪们子爬
Python 爬取微信公众号文章里的视频
浔笙: 你好，网页失效了，能单独发我吗？
win电脑按照wsl配置python环境
CSDN-Ada助手: CS入门技能树或许可以帮到你：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
Python 爬取微信公众号文章里的视频
Acowardintheworld: 不能直接运行。我改了一个直接能运行了。有兴趣可以去https://blog.csdn.net/cowardintheworld/article/details/125945369
Python 爬取微信公众号文章里的视频
Masked5: [code=python] import os import requests url = """ https://mpvideo.qpic.cn/0bc3caabiaaaliafx7elvjrfaegdcqiaafaa.f10002.mp4?dis_k=7d361fb2fa908819a89a3f60f1d6aa76&dis_t=1653475857&vid=wxv_2410964788022657026&format_id=10002&support_redirect=0&mmversion=false """ root = "/video/" path = root + "python.mp4" # 抓取文件起的名字 try: if not os.path.exists(root): os.mkdir(root) # 如果该目录不存在就创建它 if not os.path.exists(path): r = requests.get(url) # 获取到目标视频的所有信息 print(r.status_code) # 打印访问的状态码是否为200 with open(path, 'wb') as f: # 以二进制写的方式将r的二进制内容写入path f.write(r.content) f.close() print("文件保存成功") else: print("文件已存在") except: print("爬取失败") [/code]

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。