Scrapy github模拟登陆

最新推荐文章于 2023-02-01 07:46:50 发布

风萧萧兮易水寒！

最新推荐文章于 2023-02-01 07:46:50 发布

阅读量347

点赞数

分类专栏：爬虫文章标签：爬虫

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1、创建项目

scrapy startproject GitHub

2、创建爬虫

scrapy genspider github github.com

3、编辑github.py:

# -*- coding: utf-8 -*-

import scrapy

from scrapy import Request, FormRequest

class GithubSpider(scrapy.Spider):

name = 'github'

allowed_domains = ['github.com']

headers = {

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

'Accept-Encoding': 'gzip, deflate, br',

'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',

'Connection': 'keep-alive',

'Referer': 'https://github.com/',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:52.0) Gecko/20100101 Firefox/52.0',

'Content-Type': 'application/x-www-form-urlencoded'

}

# 请求头

def start_requests(self):

# 重写start_requests方法

urls = ['https://github.com/login']

for url in urls:

yield Request(url, meta={'cookiejar': 1}, callback=self.github_login)

# 通过meta传入cookiejar特殊key，爬取url作为参数传给回调函数

# meta：字典格式的元数据

# cookiejar：是meta的一个特殊的key，通过cookiejar参数可以支持多个会话对某网站进行爬取

# 可以对cookie做标记1, 2, 3, 4......这样scrapy就维持了多个会话

def github_login(self, response):

authenticity_token = response.xpath(".//*[@id='login']/form/input[2]/@value").extract_first()

# 首先从源码中获取到authenticity_token的值

return FormRequest.from_response(

response,

url='https://github.com/session',

meta={'cookiejar': response.meta['cookiejar']},

headers=self.headers,

formdata={

'authenticity_token': authenticity_token,

'commit': 'Sign in',

'login': '571157865@qq.com',

'password': 'aaqqfu1017463614',

'utf8': '✓'

},

callback=self.github_after,

dont_click=True

# dont_click如果是True，表单数据将被提交，而不需要单击任何元素

)

def github_after(self, response):

home_page = response.xpath(".//*[@class='btn btn-outline mt-2']/text()").extract()

# 获取登录成功后页面中的文本“Browse activity”

if 'Explore GitHub' in home_page:

self.logger.info('成功')

# 如果含有“Browse activity”，则打印登录成功

else:

self.logger.error('失败')

4、新建debug.py调试脚本：

# -*- coding: utf-8 -*-

from scrapy import cmdline

cmdline.execute('scrapy crawl github'.split())

5、修改settings.py配置文件：

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

# 遵循Robots协议

6、运行脚本

scrapy crawl github

风萧萧兮易水寒！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scrapy github模拟登陆

1、创建项目scrapy startproject GitHub2、创建爬虫scrapy genspider github github.com3、编辑github.py:# -*- coding: utf-8 -*-import scrapyfrom scrapy import Request, FormRequestclass GithubSpider(scr...
复制链接

扫一扫

专栏目录

风萧萧兮易水寒！ CSDN认证博客专家 CSDN认证企业博客

码龄10年

32: 原创

14万+: 周排名

213万+: 总排名

22万+: 访问

: 等级

2497: 积分

17: 粉丝

21: 获赞

18: 评论

102: 收藏

私信

关注

热门文章

分类专栏

分布式锁 1篇
golang 2篇
laravel 1篇
数据 35篇
网站 24篇
SEO 1篇
CentOS 6.5下快速搭建ftp服务器 1篇
tp 2篇
linux 14篇
爬虫 2篇

最新评论

PHP实现对短信验证码发送次数的限制（防机刷验证码）
香芋味的猫: 可以看下下面这篇博客，感觉挺有用的：短信验证码被刷怎么办？java 短信验证码防刷策略：https://blog.csdn.net/weixin_49701447/article/details/113624970
Zabbix agent on Zabbix server is unreachable for 5 minutes
AvalonZST: 博主，你说的这个是zabbix的agent.ping 探活吗？你那边配置的是主动模式还是被动模式？
Thinkphp5之多语言
筚路蓝缕呀: 虽然这样可以实现..但是不利于seo,蜘蛛没法切换成英文版爬内容...这种情况要如何优化处理了.
Thinkphp5之多语言
码农PHP666: 大佬，您好，你的怎样可以运用在动态网站呢，就是要从数据库里面获取信息
Thinkphp5之多语言
风萧萧兮易水寒！回复 zhoulangds: 这是必须要的

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。