ConnectionError

最新推荐文章于 2024-05-23 14:37:24 发布

竹杖蓑衣客

最新推荐文章于 2024-05-23 14:37:24 发布

阅读量1.9k

点赞数

分类专栏： Error 爬虫文章标签： python

本文链接：https://blog.csdn.net/qq_43317312/article/details/106127956

版权

爬虫同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

Error

6 篇文章 0 订阅

订阅专栏

描述：爬取TED网站页面主题和网址
方法：requests + bs4
问题：（1）爬取第一页还没问题，第二页出现如下显示：
在这里插入图片描述
（2）技术菜鸟的做法就是百度，然后试试，先运行然后再学习；
添加timeout=(timeout=(3,7))

def getHtml(url):
  
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.0; WOW64; rv:24.0) Gecko/20100101 Firefox/24.0'}
    page = requests.get(url, headers=headers, timeout=(3,7))
    page.encoding= page.apparent_encoding
    html = page.text

(3)然后问题依旧
在这里插入图片描述
参考：https://blog.csdn.net/wdh315172/article/details/80491668

这样，接下来完全看运气了，运气好的时候爬几十页，差的时候只有几页，不过还是有进步的，后续再慢慢改进，毕竟先完成任务再说…

竹杖蓑衣客

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ConnectionError

描述：爬取TED网站页面主题和网址方法：requests + bs4问题：（1）爬取第一页还没问题，第二页出现如下显示：（2）技术菜鸟的做法就是百度，然后试试，先运行然后再学习；添加timeout=(timeout=(3,7))def getHtml(url): headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.0; WOW64; rv:24.0) Gecko/20100101 Firefox/24.0'} page =
复制链接

扫一扫