![](https://img-blog.csdnimg.cn/3b73b2c6e1ec4220b158a2c9ce9a8169.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
爬虫
文章平均质量分 65
用python实现爬虫,捕获网站信息。
微雨停了
靠近光,追随光,成为光,发散光。
展开
-
【python】python实现多线程并得到返回值
文章目录一、带有返回值的多线程1.1 实现代码1.2 结果二、实现过程2.1 一个普通的单线程爬虫函数2.2 一个简单的多线程传值实例2.3 实现重点三、代码实战四、学习一、带有返回值的多线程1.1 实现代码# -*- coding:utf-8 -*-"""作者:wyt日期:2022年04月21日"""import threadingimport requestsimport timeurls = [ f'https://www.cnblogs.com/#p{page}'原创 2022-04-28 03:07:38 · 6906 阅读 · 9 评论 -
【信息收集】用python实现子域名探测(二)
文章目录前言一、爬虫1.ip1382.bing二、通过字典进行子域名爆破三、python爬虫操作步骤1.写出请求头headers与目标网站url2.生成请求3.抓取数据4.分析源码,截取标签中内容四、爬虫一些总结1.抓取数据,生成soup2.从文档中获取所有文字内容3.从文档中找到所有< a >标签的链接前言意义:子域名枚举是为一个或多个域查找子域的过程,它是信息收集阶段的重要组成部分。实现方法:使用爬虫与字典爆破。一、爬虫1.ip138def search_2(domain):原创 2022-04-08 01:39:34 · 2588 阅读 · 0 评论 -
【报错】This user agent has been blocked due to abuse 爬虫被封IP解决
一、报错形式记录一下,今天继续做我的毕设,爬crt.sh站记录时,发现我的IP被封掉了……requests.get('https://crt.sh/?q=' + domain, headers=headers,verify=False)我得到了这样的结果,requests请求返回如下:This user agent has been blocked due to abuse. Can we interest you direct access to the crt.sh DB to fetch原创 2022-04-10 21:39:10 · 2480 阅读 · 0 评论 -
【报错】爬虫 HTTPSConnectionPool(host=‘xxx‘, port=443) 解决方案
报错情况:执行如下代码请求webscan.cc时报ssl错误:domain = "taobao.com"results = requests.get('https://www.webscan.cc/site_' + domain, headers=headers)HTTPSConnectionPool(host=‘www.webscan.cc’, port=443): Max retries exceeded with url: /site_taobao.com (Caused by SSLEr原创 2022-04-10 00:35:06 · 11030 阅读 · 0 评论