爬虫
20岁,已秃
人老心不老,68岁程序员再创辉煌!
展开
-
网站文字不能复制怎么办?!
原创 2020-12-04 20:01:21 · 139 阅读 · 0 评论 -
带参数的请求是什么?
直接带参数import requestsurl = 'https://www.baidu.com/s?wd=python'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'}# 第一个是参数,第二个headers等于字典respone = requ.原创 2020-12-04 15:12:21 · 285 阅读 · 0 评论 -
response响应对象参数和方法是啥?怎么发送带请求头的请求(headers参数)怎么发送带参数的请求?cookieJar的转换方法是什么?
在python里所有变量都是对象import requestsurl = 'http://www.baidu.com/'respone = requests.get(url)# 参数# 响应的url (访问网站被重定向 这是真地址)print(respone.url)# 状态码print(respone.status_code)# 请求头print(respone.request.headers)# 响应头print(respone.headers)# 方法#.原创 2020-12-04 11:57:12 · 676 阅读 · 0 评论 -
请求头到底是什么?
可能你有点搞不清了,上图报文头就是请求头原创 2020-12-04 11:47:52 · 1695 阅读 · 0 评论 -
request模块是什么?怎么安装request模块?
request模块发送http请求,获取响应。request模块安装方式:pip install requestspip3 install requests利用模块发送get请求import requestsurl = 'http://www.baidu.com/'response = requests.get(url)# text-打印源码print(response.text)...原创 2020-12-04 10:11:57 · 1346 阅读 · 1 评论 -
浏览器运行过程是什么?爬虫过程与浏览器过程区别是什么?抓包过程是什么?渲染是什么?
拿着域名去DNS域名服务器解析出IP地址和端口号我们客户端得到真正的地址就去访问Web服务器了第一个页面是html页面 利用这个页面来发送请求其他资源 以此类似CTRL+F response页面进行搜索Initiator 请求由谁发起抓包过程在html/js,ajax/css,img,font文件里抓数据获取第一个响应在浏览器上展示开始,直到全部响应,这叫渲染...原创 2020-12-04 09:36:05 · 155 阅读 · 0 评论 -
什么是响应头 什么是响应状态码
响应头Set-Cookie 服务器让浏览器保存的cookie 下次发起请求会带上无痕模式可以不携带任何cookie可以利用Retry-After 多久再来访问响应状态码200 成功302 挑战303 post请求跳转307 get请求跳转403 无权限404 找不到页面503 服务器由于维护或负载过重拒绝请求(反爬)状态码不可信 如果浏览器可以访问 你爬不了 你被耍了...原创 2020-12-04 09:08:25 · 224 阅读 · 0 评论 -
请求头是什么?
请求方法 协议版本host:域名Connection(连接类型):keep-alive(长连接不要经常断开)有的网站会检查因为大部分浏览器带这个Upgrade-Insecure-Requests:1(升级为HTTPS请求)比如你访问百度用http 百度支持https就帮你去访问HTTPsUser-Agent用户代理1.Mozilla/5.0几乎市面上所有浏览器都支持这个协议2.Macintosh; 指Mac 机器名字 系统版本3.AppleWebKit/版本(...原创 2020-12-03 16:02:40 · 1875 阅读 · 0 评论 -
爬虫1 http概念 默认端口
http是超文本传输协议默认端口80https是http+ssl(安全套接字层)默认端口号443HTTP其实就是一个请求响应协议,从服务器传送超文本给浏览器之类的。原创 2020-12-03 15:18:24 · 272 阅读 · 0 评论