scrapy模拟登陆选项
范之度
这个作者很懒,什么都没留下…
展开
-
selenium获取网页中的元素
在selenium中如果正常地从response中获取动态网页元素,会获取成空字符,下边有两种方法一种是直接从无痕浏览器上筛选,然后获取固定的内容,参考https://www.cnblogs.com/xiao-xue-di/p/11531894.html但是缺点也很明显,那就是不够灵活,python自用的xpath查询会更灵活。 另一种方法获取页面源码,直接用lxml对源码进行解码:Python Selenium 获取页面所有文本内容_旷野历程-CSDN博客_seleniu...原创 2021-11-20 21:30:45 · 1388 阅读 · 0 评论 -
谷歌无痕浏览器使用方法
from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom scrapy import signalsclass GeturlSpider(scrapy.Spider): name = 'geturl' #allowed_domains = ['https://map.lianjia.com/map/310000/ESF'] start_urls = ['htt.原创 2021-11-20 20:56:18 · 890 阅读 · 0 评论 -
opencv 数据库裁剪图片
网址参考这个wpython opencv 裁剪图片_python通过opencv实现图片裁剪原理解析_weixin_39604685的博客-CSDN博客img = cv2.imread('Slankimg.png')#cv2.resize这个是缩放,高度和宽度#image1== cv2.resize(img, (90, 90))#img1=img[100:300,125:375]#参数1 是高度的范围,参数2是宽度的范围aa=img[7:125,21:115]cv2.imwrite('Sl原创 2021-10-31 22:09:45 · 1345 阅读 · 0 评论 -
python使用selenium模拟发帖【上传图片windows窗口破解法】
问题:在豆瓣发帖的时候,涉及到要上传图片,点击图片,会弹出一个windows弹窗,这个使用selenium是模拟不了的,此时要使用AutoIt软件。(其实另一中上传图片的方式是<input>标签,可以用另一种方式,详情可参考来自https://www.jb51.net/article/121889.htm。)下边是安装和配置AutoIt的方法:https://blog.csdn.net/weixin_42763696/article/details/105781884?utm_term=py原创 2021-04-21 21:23:41 · 435 阅读 · 1 评论 -
selenium点击豆瓣登陆按钮失灵的情况
出现这种情况一般有两种:(1)定位出现问题。 (2)iframe标签要加载。 (3)单纯的架构问题。解决(1)问题方法:webdriver 提供了一系列的对象定位方法,常用的有以下几种:id定位:find_element_by_id()name定位:find_element_by_name()class定位:find_...原创 2021-03-14 12:44:40 · 518 阅读 · 0 评论 -
Scrapy在爬虫中间件中添加代理IP和浏览器头
在middle.py中添加如下代码:class Demo1SpiderMiddleware: user_agent = [ "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60", "Opera/8.0 (Windows NT 5.1; U; en)",原创 2021-02-15 21:53:18 · 383 阅读 · 1 评论 -
scrapy 爬虫中间件调动不了,解决方案
在scrapy模拟登陆中,发现浏览器请求头怎么都添加不了,然后开始分析问题。 首先是在下载中间件中的def process_response(self, request, response, spider):中添加请求头,结果没有添加成功。request.meta['proxy'] = 'http://'+crequest.meta['User_Agent'] = random.choice(user_agent) 结果没有运行...原创 2021-02-14 19:58:24 · 827 阅读 · 0 评论 -
scrapy使用coockie登陆
这个要注意的是一定要用爬虫文件而不是中间件,带cookie访问。在中间件文件中添加没用。Request(url = 'https://movie.douban.com',cookies=self.cookie, callback = self.aaa)主要是在start_url中添加,具体代码如下:# -*- coding: utf-8 -*-import scrapyimport requestsfrom scrapy.linkextractors import LinkExtrac原创 2021-02-07 23:03:54 · 156 阅读 · 0 评论 -
Scrapy模拟登陆豆瓣
具体实践代码如下:# -*- coding: utf-8 -*-import scrapyimport requestsfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider,Rule,Requestfrom scrapy.http import FormRequestimport requestsclass DemoSpider(scrapy.Spider): n原创 2021-02-03 18:37:36 · 177 阅读 · 0 评论