九、Scrapy模拟登录人人网
作者:Irain
QQ:2573396010
微信:18802080892
GitHub项目链接:人人网scrapy爬虫.
视频资源链接:Scrapy模拟登录人人网.
1 创建scrapy项目和爬虫
参考链接:在DOC窗口创建scrapy项目和爬虫.
2 settings.py设置
3 核心内容:rrw_spider.py(代码在后面)
4 成果展示
5 注意情况
6 代码附件(添加部分:账号、密码、人人网个人主页url)
# -*- coding: utf-8 -*-
import scrapy
class RrwSpiderSpider(scrapy.Spider):
name = 'rrw_spider' # 爬虫名字
allowed_domains = ['renren.com'] # 网站域名
start_urls = ['http://renren.com/'] # 起始网页
def start_requests(self):
url = "http://www.renren.com/PLogin.do" # 人人网登录url
data = { # post请求数据
"email":"账号", # 账号。不管是邮箱还是手机号,都是用‘email’
"password":"密码" # 密码
}
request = scrapy.FormRequest(url=url, formdata=data, callback=self.parse_page) # 模拟登录人人网,成功后调用parse_page
yield request
def parse_page(self,response):
url = "人人网个人主页url" # 人人网个人主页
request = scrapy.Request(url=url, callback=self.parse_profile) # 成功访问后调用parse_profile
yield request
def parse_profile(self,response):
with open('profile.html', 'w', encoding='utf-8') as fp: # 保存个人主页面到HTML,用浏览器打开
fp.write(response.text)
发布日期:2020年4月17日