九、Scrapy模拟登录人人网--scrapy爬虫初学者学习过程-----精通Python爬虫框架scrapy

最新推荐文章于 2023-07-23 22:25:04 发布

Irain_Luo

最新推荐文章于 2023-07-23 22:25:04 发布

阅读量175

点赞数 1

分类专栏： scrapy爬虫 python 初学者文章标签： python

本文链接：https://blog.csdn.net/weixin_42122125/article/details/105585369

版权

scrapy爬虫同时被 3 个专栏收录

20 篇文章 0 订阅

订阅专栏

初学者

16 篇文章 0 订阅

订阅专栏

python

9 篇文章 0 订阅

订阅专栏

九、Scrapy模拟登录人人网

作者：Irain
QQ：2573396010
微信：18802080892
GitHub项目链接：人人网scrapy爬虫.
视频资源链接：Scrapy模拟登录人人网.

1 创建scrapy项目和爬虫

参考链接：在DOC窗口创建scrapy项目和爬虫.

2 settings.py设置

参考链接：scrapy爬虫项目设置settings.py参数.

3 核心内容：rrw_spider.py(代码在后面）

在这里插入图片描述

4 成果展示

在这里插入图片描述

5 注意情况

在这里插入图片描述

6 代码附件（添加部分：账号、密码、人人网个人主页url）

# -*- coding: utf-8 -*-
import scrapy
class RrwSpiderSpider(scrapy.Spider):
    name = 'rrw_spider'  #  爬虫名字
    allowed_domains = ['renren.com']   #  网站域名
    start_urls = ['http://renren.com/']  # 起始网页
    def start_requests(self):
        url = "http://www.renren.com/PLogin.do"  #  人人网登录url
        data = {    #  post请求数据
            "email":"账号",   #  账号。不管是邮箱还是手机号，都是用‘email’
            "password":"密码"  #  密码
        }
        request = scrapy.FormRequest(url=url, formdata=data, callback=self.parse_page)  #  模拟登录人人网，成功后调用parse_page
        yield request
    def parse_page(self,response):
        url = "人人网个人主页url" #  人人网个人主页
        request = scrapy.Request(url=url, callback=self.parse_profile)   #  成功访问后调用parse_profile
        yield request
    def parse_profile(self,response):
        with open('profile.html', 'w', encoding='utf-8') as  fp:   #  保存个人主页面到HTML，用浏览器打开
            fp.write(response.text)