Python爬虫学习
Lemon_guess
这个作者很懒,什么都没留下…
展开
-
爬虫——获取cookie
没登录就产生cookie,除了分析JS代码之外,还有一个方法获取cookie直接访问网站首页地址,种方法适用于Response Headers里面有Set-Cookie值的网页response.textresponse.json()response.status_coderesponse.cookie[‘ICITYSession’]...原创 2021-07-17 20:10:55 · 264 阅读 · 0 评论 -
scrapy中将数据传参
def parse(self,response): ... yield scrapy.Request(url = url,callback = self.parse_detail,meta{'page':response})def parse_detail(self,response): page = response.meta['page'] yeild scrapy.FormRequest.form_response( page, formname = '***' formid='原创 2021-07-12 03:29:30 · 92 阅读 · 0 评论 -
scrapy框架中在线读取图片
在spider.py中:from io import BytesIOfrom PIL import ImageClass ... def... img_data = BytesIO(response.body) img = Image.open(image_data)原创 2021-07-12 03:12:26 · 52 阅读 · 0 评论 -
JS加密方式
常见加密方式:加密:前端{1.把加密的数据给后端2.JS加密3.携带正确的参数——进行加密}后端:存入数据库或者校验为了反爬,前端请求就会进行携带指定的参数,参数的值会进行加密,后端再进行校验1.MD5加密概念:线型散列算法(签名算法)加密:产生一个固定长度的十六进制的数据(32位或16位)解密:常规的说法:MD5是不存在解密的(不可解密)。理论上可以破解——暴力破解,逐个比对,轮询,但需要庞大的数据量、长时间、高性能机器。JS如何进行MD5加密?压缩文件:命名符合规范,就会有min原创 2021-07-09 00:41:43 · 1550 阅读 · 0 评论 -
python爬虫中字典dict/json/cookiejar相关操作
dict 和cookiejar互转import requestsresponse = requests.get(url=url, headers=headers)#获取cookieJar 对象cook=response.cookies#字典转cookiejarrequests.utils.dict_from_cookiejar(cj) #cookiejar转字典requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None,原创 2021-07-01 00:55:46 · 564 阅读 · 0 评论 -
python爬虫学习D.3数据解析——聚焦式爬虫
一、数据解析概述爬虫一般分成三种类型:1)通用式爬虫;2)聚焦式爬虫;3)增量式爬虫;聚焦爬虫:爬取页面中指定的页面内容。数据解析分类:——正则——beautifulsoup4——xpath数据解析原理概述:-解析的局部文本内容都会在标签对应的属性中进行存储;-进行指定标签的定位;-标签或者标签对应的属性中存储的数据值进行提取(解析)。二、数据解析——正则表达式2.1正则练习import re#1.提取出pythonkey1 = 'javapythonc++php're原创 2021-05-31 23:12:39 · 554 阅读 · 0 评论 -
python爬虫学习D.2 网络请求Requests模块
一、requests简介request模块:Python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。作用:模拟浏览器发送请求。如何使用?(requests模块的编码流程)-指定url-发起请求-获取响应数据-持久化存储环境安装:pip install requests实战编码:-需求爬取搜狗首页的数据import requests#step1:指定urlurl = 'https://www.sogou.com/'#step2:发起请求(get方法会返回一个原创 2021-05-28 22:15:30 · 239 阅读 · 0 评论 -
python爬虫学习D.1爬虫简介
robots.txt协议http协议:服务器与客户端进行数据交互的一种形式。常用请求头信息:-User-Agent:请求载体的身份表示-Connection:请求完毕后,是断开连接还是保持连接常用响应头信息-Content-Type:服务器响应回客户端的数据类型https协议:安全的超文本传输协议(采用证书秘钥加密)加密方式:-对称秘钥加密:客户端向服务端发送信息,客户端制定加密方式,再连锁带钥匙一起给服务端,服务端就可以用钥匙打开。-非对称秘钥加密:服务端制定加密方式,把公钥发送给客户原创 2021-05-28 02:48:49 · 800 阅读 · 0 评论