requests爬取豆瓣top250 movie

最新推荐文章于 2024-04-23 11:36:40 发布

笑笑曦

最新推荐文章于 2024-04-23 11:36:40 发布

阅读量322

点赞数

分类专栏： python

python 专栏收录该内容

77 篇文章 1 订阅

订阅专栏

import requests
from time import time
import re

url = 'https://movie.douban.com/top250'

def fetch_page(url):
    response = requests.get(url)
    return response

def parse(url):
    response = fetch_page(url)
    page = response.content
    #print(page)

    fetch_list = set()
    result = []

    for title in re.findall(r'<a href=.*\s.*<span class="title">(.*)</span>', page):
        result.append(title)

    for postfix in re.findall(r'<a href="(\?start=.*?)"', page):
        fetch_list.add(url + postfix.decode())

    for url in fetch_list:
        response = fetch_page(url)
        page = response.content
        for title in re.findall(r'<a href=.*\s.*<span class="title">(.*)</span>', page):
            result.append(title)

    for i, title in enumerate(result, 1):
        #title = title.decode('utf-8').encode('utf-8')
        print('{} {}'.format(i,title))

def main():
    start=time()
    parse(url)
    end=time()
    print('Cost {} seconds'.format((end - start)))

if __name__ == '__main__':
    main()

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

笑笑曦 CSDN认证博客专家 CSDN认证企业博客

码龄12年

62: 原创

7万+: 周排名

194万+: 总排名

21万+: 访问

: 等级

2188: 积分

30: 粉丝

55: 获赞

8: 评论

216: 收藏

私信

关注

热门文章

分类专栏

MySQL 1篇
渗透测试 1篇
python 77篇
性能测试 4篇
自动化测试 33篇
软件测试 15篇
爬虫 5篇
appium 3篇
数据库测试 9篇
工具 5篇
uiautomator2 1篇

最新评论

删除列表多个元素
Virus510: 我也想知道这个，为什么删除了33行结果不对，感觉确实不太需要
并发用户数，吞吐量计算公式
笑笑曦: 在性能测试方法论中，很典型的方法就是二八原则，量化业务需求。二八原则：指80%的业务量在20%的时间里完成。用户登录场景：早高峰时段，8：50---9：10，5000坐席上线登陆。业务量：5000个时间：20x60=1200秒吞吐量=80%x业务量/(20%*时间)=4000/240=16.7/秒而并非5000/1200=4.1/秒实际上，登录请求数分布是一个正态分布，最高峰时肯定比4.1/秒更高，高峰段实际上完成了80%的业务量，却只花了20%的时间。经验因子取3~5，并发量=16.7x3=50.1
Python判断字符串是否为字母或者数字
Tisfy: 真棒！就像：恰同学少年，风华正茂；书生意气，挥斥方遒。
数据迁移测试方法【转】
乌鸦的朋友圈: 博主厉害啊。谢谢博主分享经验
删除列表多个元素
死也要学Python: 没有这一行结果不对

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。