![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
ATOM_123
这个作者很懒,什么都没留下…
展开
-
Python Selenium 过 检
from selenium import webdriveroptions = webdriver.ChromeOptions()options.add_experimental_option("excludeSwitches", ["enable-automation"])options.add_experimental_option('useAutomationExtension', False)driver = webdriver.Chrome(options=options, execut.原创 2020-09-24 09:36:22 · 901 阅读 · 2 评论 -
Scrapy模拟登录赶集网
在我们输错密码时按下F12就可查看到如下信息会发现有个随机的hash值(普遍规律:这种hash值会在网页源码中)于是我们去网页源码中找在模拟登录赶集网的时候出现的问题:1.allowed_domains这个字段的理解,回调函数失败的原因(把限制域名注释掉就可以了!allowed_domains)import scrapyimport re...原创 2020-03-12 13:41:23 · 135 阅读 · 0 评论 -
爬虫基础之模拟登陆原理
1.为什么说HTTP协议是无状态的比如我们在连接到某个网站的时候,连接请求收到数据后就会断开2.现在的网站是要识别请求是属于哪个用户的通过cookie和session 一般是这样:你在输入用户名和密码后,服务器判断成功后会给返回一段字符串(这段字符串想对于来说比较复杂,生成算法别人伪造不了)这种字符串就叫seesion,然后我们在服务器中存储一下这种数据结构use...原创 2020-03-10 13:00:48 · 199 阅读 · 0 评论