学习笔记(08):150讲轻松搞定Python网络爬虫-urllib库-urllib库爬虫作业

最新推荐文章于 2024-08-14 23:30:40 发布

lin猦

最新推荐文章于 2024-08-14 23:30:40 发布

阅读量199

点赞数

分类专栏：研发管理文章标签： python 网络爬虫编程语言 Python 数据存储

本文链接：https://blog.csdn.net/qq_41573592/article/details/106410879

版权

研发管理专栏收录该内容

8 篇文章 0 订阅

订阅专栏

立即学习:https://edu.csdn.net/course/play/24756/280660?utm_source=blogtoedu

#HTTPS://www.biedoul.com

from urllib import request
for i in range(31095,31099):
    i=str(i)
    z="laugh" + i + ".html"
    url = "https://www.biedoul.com/index/"+i
    resp = request.urlopen(url)
    print(resp.read().decode('utf-8'))
    request.urlretrieve(url,z)
# 爬取别逗了笑话的最后三个网页。

#思考，如果要爬range(1,31099)如何用 yield 代替 range

#-----------------------------------------------

#爬取www.biedoul.com
from urllib import request
import time     #引用时间函数
import random   #引用随机数#思路就是爬完一个html随机休息一段时间再爬以免对服务器造成负担,但是自己爬的特慢
def foo(num):

    while num<31099:
        num = num+1
        yield num

for i in foo(1):
    i=str(i)
    z="laugh" + i + ".html"
    url = "https://www.biedoul.com/index/"+i
    resp = request.urlopen(url)
    print(resp.read().decode('utf-8'))
    request.urlretrieve(url,z)
    time.sleep(random.random() * 3)
# 爬取别逗了笑话

lin猦

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
学习笔记(08):150讲轻松搞定Python网络爬虫-urllib库-urllib库爬虫作业

【课程介绍】本课程总体分成五大模块，分别是网络请求、数据解析、数据存储、爬虫进阶、Scrapy框架和分布式爬虫，包含了一个爬虫工程师需要掌握的几乎所有技能，知识点非常体系。实战部分都是紧贴知识点，即学即用，紧跟潮流。课程还配有许多作业，通过作业可以让学生实现真正把技术转成自己的技能的目的。【课程内容包括】共150讲课程+...
复制链接

扫一扫