
Python爬虫
文章平均质量分 51
记录爬虫生活
蜡笔小新星
工作挺忙,想看什么文章可以留言
展开
-
关于Scrapy的那些事儿(五)项目生成
项目生成在terminal(终端)中,进入到spiders(项目目录亦可)目录,输入并执行下面一行命令:# scrapy genspider 爬虫的名字 "初始的url"scrapy genspider baidu "www.baidu.com"在spiders目录里面会生成一个名为baidu的爬虫文件,它以系统模板生成的。# -*- coding: utf-8 -*-import scrapyclass BaiduSpider(scrapy.Spider): # 爬虫文件的名称:就是爬虫原创 2024-08-30 16:12:12 · 440 阅读 · 0 评论 -
关于Scrapy的那些事儿(四)Scrapy Shell
Scrapy Shelllaunch Scrapy shell 使用如下命令:scrapy shell <url>当运行scrapy shell的时候,它为我们提供了一些功能函数:shelp() :打印可用对象和快捷命令的帮助列表fetch(request or url):根据给清的请求request或URL获取一个新的Response对象,并更新原有的对象。views(response):使用本机的浏览器查看response对象。由于 Selector 主要是与 Scrap原创 2024-08-30 16:11:56 · 442 阅读 · 0 评论 -
关于Scrapy的那些事儿(三)Scrapy中setting.py的基本设置
基本设置查看setting.py文件,详解各个参数#创建工程的时候生成的名称BOT_NAME = 'myscrapy'# 客户端的USER_AGENT请求头,改成自己浏览器的USER_AGENTUSER_AGENT = 'firstDemo (+http://www.yourdomain.com)'#是否遵循爬虫协议,一般不要遵循ROBOTSTXT_OBEY=False# 显示指定类型的日志信息LOG_LEVEL = 'ERROR'# 是否支持cookie,默认是开启的COOK原创 2022-02-07 11:11:08 · 413 阅读 · 0 评论 -
关于Scrapy的那些事儿(二)如何创建Scrapy项目
安装Scrapy,如果是用PIP安装,在终端输入命令如下: pip install scrapy在安装的过程中,可能会提示错误,可能会有某些依赖包无法安装,这时需要单独安装依赖包后再运行上面的命令安装Scrapy。在使用Scrapy项目之前,我们必须创建一个Scrapy工程,依旧是在终端输入命令:scrapy startproject tutorial # tutorial:这里是项目名字这个时候我们就会发现创建了一个tutorial文件夹,里面包含:tutorial/ scrapy.c原创 2022-02-06 00:15:57 · 635 阅读 · 0 评论 -
关于Scrapy的那些事儿(一)Scrapy的运作流程
代码写好,程序开始运行…1 引擎:Hi!Spider, 你要处理哪一个网站?2 Spider:老大要我处理xxxx.com。3 引擎:你把第一个需要处理的URL给我吧。4 Spider:给你,第一个URL是xxxxxxx.com。5 引擎:Hi!调度器,我这有request请求你帮我排序入队一下。6 调度器:好的,正在处理你等一下。7 引擎:Hi!调度器,把你处理好的request请求给我。8 调度器:给你,这是我处理好的request9 引擎:Hi!下载器,你按照老大的下载中间件的设置原创 2022-02-05 14:42:13 · 554 阅读 · 0 评论 -
自动化爬虫selenium之键盘操作
常用的键盘操作send_keys() 方法可以模拟键盘输入。在使用键盘按键方法前需要先导入 keys 类包。# 导入keys类包from selenium.webdriver.common.keys import Keys比较常用到的键盘操作有:空格键(Space)回车键(Enter)回退键(Esc)制表键(Tab)删除键(BackSpace)组合键:全选(Ctrl+A)复制(Ctrl+C)剪切(Ctrl+X)粘贴(Ctrl+V)功能键:键盘F1~键盘F12...原创 2022-02-02 12:20:16 · 1482 阅读 · 1 评论 -
自动化爬虫selenium之操控浏览器
本文主要讲解操控浏览器的语句,通俗易懂原创 2022-02-01 21:17:38 · 8710 阅读 · 0 评论 -
Python爬虫之基于selenium实现12306模拟登录并成功解决滑块验证出错的情况
Python爬虫之基于selenium实现12306模拟登录(滑块验证),解决滑块验证登录报错的问题。文章很详细,还会有关于登录失败的问题,就登录这个问题,简直不要太简单,跟着我一起来去实现叭!原创 2022-01-30 13:19:36 · 18180 阅读 · 13 评论 -
使用selenium模拟登录QQ空间
几分钟教会你如何使用selenium模拟登录QQ空间,超级简单,超级详细的讲解过程!原创 2022-01-29 21:50:20 · 1265 阅读 · 4 评论 -
自动化爬虫selenium基础教程
关于selenium的基础操作,不废话,新手都能看懂的基本操作。原创 2022-01-28 22:33:11 · 15402 阅读 · 3 评论