使用Scrapy模拟登陆人人网

使用Scrapy模拟登陆人人网

一. 新建项目(scrapy startproject)

​ 打开命令行,按以下步骤操作

C:\Users\JunSIr>d:

D:\mkdir scrapyProject

D:\>cd scrapyProject 

D:\scrapyProject>scrapy startproject renrenSpider
------------------------------------------------------------
New Scrapy project 'renrenSpider', using template directory 'D:\anaconda\lib\site-packages\scrapy\templates\project', created in:
    D:\scrapyProject\renrenSpider
 
You can start your first spider with:
    cd renrenSpider
    scrapy genspider example example.com
------------------------------------------------------------
D:\scrapyProject>cd  renrenSpider

D:\scrapyProject\renrenSpider>
  1. 打开pycharm --> 文件—>打开—>找到我们之前用命令行创建的爬虫文件夹,看到如下

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1po1tsBo-1571155490149)(C:\Users\JunSIr\AppData\Roaming\Typora\typora-user-images\1571065245981.png)]

  • scrapy.cfg: 项目的配置文件。
  • items.py: 项目的目标文件。
  • pipelines.py: 项目的管道文件。
  • settings.py: 项目的设置文件。
  • /spiders/: 存储爬虫代码目录。

二.修改settings.py

  • 取消管道注释

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iqxsVYrp-1571155490150)(C:\Users\JunSIr\AppData\Roaming\Typora\typora-user-images\1571065316542.png)]

  • 取消请求头注释并添加请求头

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qgpjSjLg-1571155490151)(C:\Users\JunSIr\AppData\Roaming\Typora\typora-user-images\1571065489438.png)]

 Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36 

三.爬虫制作

命令行输入`scrapy genspider renren “renren.com”``

在pycharm—>/spiders/renren.py下编写

# -*- coding: utf-8 -*-
import scrapy


class RenrenSpider(scrapy.Spider):
    name = 'renren'
    allowed_domains = ['renren.com']
    start_urls = ['http://renren.com/']

    #爬虫一开始就POST请求必重写start_request方法
    def start_requests(self):
        url = "http://www.renren.com/PLogin.do"
        data = {"email":"xxxx","password":"pythonspider"}
        request =scrapy.FormRequest(url,formdata=data,callback=self.parse)
        yield  request

        #理解,yield给调度器-->得到response--->带着response,callback给parse

    def parse(self, response):

        request = scrapy.Request(url = 'http://www.renren.com/880151247/profile',
                callback=self.parse_profile
        )
        yield request
        # 理解,yield给调度器-->得到response--->带着response,callback给parse_profile

		#访问只有登陆状态才能访问的大鹏个人主页
    def parse_profile(self,response):
        with open('dp.html','w',encoding='utf8') as fp:
            fp.write(response.text)

    #代码讲解:
            # 一、不带括号时,调用的是这个函数本身 ,是整个函数体,是一个函数对象,不须等该函数执行完成
            # 二、带括号(参数或者无参),调用的是函数的执行结果,须等该函数执行完成的结果
            #三、scrapy.FormRequest使用于scrapy的Post请求,否则可以直接使用scrapy.Request
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
A:使用scrapy模拟登陆大众点评网的步骤如下: 1. 在settings.py中添加COOKIES_ENABLED=True,开启cookies支持; 2. 在spider中编写start_requests方法,发送GET请求到大众点评的登录页面,获取登录页面的cookie; 3. 编写parse方法,解析登录页面的源代码,提取出登录时需要的参数、加密token等信息; 4. 编写一个登录方法,使用加密token和传递用户名和密码设置POST请求,将用户凭证提交到登录页面; 5. 再次编写parse方法,使用selenium打开登录页面,成功登录后,提取响应页面的cookie; 6. 在后续的请求中使用该cookie,以保持用户的登录状态。 具体实现代码如下: ```python import scrapy from scrapy.http import FormRequest from selenium import webdriver class DianPing(scrapy.Spider): name = 'dianping' allowed_domains = ['www.dianping.com'] start_urls = ['https://account.dianping.com/login'] def start_requests(self): yield scrapy.Request(url=self.start_urls[0], callback=self.parse, meta={ 'splash': { 'endpoint': 'render.html', 'args': {'wait': 0.5}, }, 'selenium': True }) def parse(self, response): # 获取cookie cookie = response.headers.getlist('Set-Cookie') cookie = [c.decode('utf-8').split(';')[0] for c in cookie] cookie = '; '.join(cookie) # 获取加密token token = response.css('input[name="token"]::attr(value)').extract_first() # 提交登录请求 yield FormRequest.from_response(response, formdata={ 'account': 'your_username', 'password': 'your_password', 'token': token, 'redir': 'https://www.dianping.com', 'rememberMe': 'true', }, headers={ 'Cookie': cookie, }, callback=self.after_login, meta={ 'splash': { 'endpoint': 'render.html', 'args': {'wait': 0.5}, }, 'selenium': True }) def after_login(self, response): # 使用selenium打开登录页面,获取cookie if '登录' not in response.body.decode('utf-8'): driver = response.meta['driver'] driver.get(response.url) cookies = driver.get_cookies() cookie_dict = {} for cookie in cookies: cookie_dict[cookie['name']] = cookie['value'] yield scrapy.Request( url='https://www.dianping.com/', cookies=cookie_dict, callback=self.parse_homepage, meta={ 'splash': { 'endpoint': 'render.html', 'args': {'wait': 0.5}, } } ) def parse_homepage(self, response): print(response.body) ``` 上述代码中,我们通过在start_requests的meta中添加了splash和selenium参数,使得start_requests方法使用splash和selenium的渲染能力来处理请求。在parse方法中,我们获取了登录页面的cookie和加密token,并设置了POST请求,将用户凭证提交到登录页面。在after_login方法中,我们使用selenium打开登录页面,并在parse_homepage方法中解析响应页面的源代码。最后,在后续的请求中使用获取到的cookie即可保持用户的登录状态。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值