![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
lynn_321
这个作者很懒,什么都没留下…
展开
-
针对不同网站爬虫思考
想做一个漏洞信息数据库,需要爬取几个漏洞检测网站的信息,发现这几个网站或多或少存在一些反爬机制,故针对不同的网站可以采取不同的爬虫策略1、request直接爬取对于没有反爬机制的网站,可以直接使用request爬取,可加入header请求头和延长等待时间示例网站:首页 - 信息安全漏洞门户 VULHUBimport requestsfrom bs4 import BeautifulSoupimport time# get 网站文本信息def get_html(u...原创 2022-03-20 14:53:47 · 4470 阅读 · 0 评论 -
模拟浏览器爬取-全球ping结果
import timeimport csvfrom urllib.parse import urlparsefrom lxml import etreefrom selenium import webdriverfrom selenium. webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdri.原创 2022-03-20 11:19:26 · 574 阅读 · 0 评论 -
爬虫--网贷之家
import reimport requestsfrom bs4 import BeautifulSoupheader = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36", 'Cookie':}url = "https://www.wdzj.com/daohang.原创 2022-03-19 17:50:21 · 683 阅读 · 1 评论 -
爬虫--谷歌浏览器输入关键词爬取网站
import urllibimport requestsfrom bs4 import BeautifulSoup# desktop user-agentUSER_AGENT = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:65.0) Gecko/20100101 Firefox/65.0"# mobile user-agentMOBILE_USER_AGENT = "Mozilla/5.0 (Linux; Android 7.0; SM.原创 2022-03-19 17:49:07 · 1937 阅读 · 0 评论