python爬虫豆瓣网的模拟登录实现

最新推荐文章于 2024-08-15 12:14:28 发布

程序员浩然

最新推荐文章于 2024-08-15 12:14:28 发布

阅读量4.6k

点赞数 1

分类专栏： python爬虫教程文章标签： python 人工智能

本文链接：https://blog.csdn.net/haoxun09/article/details/104741375

版权

本文详述了使用Python进行豆瓣网模拟登录的步骤，包括分析POST地址、处理验证码，最终成功登录到个人主页。核心代码在'DouBan.py'和'ruokaui.py'，采用若快打码平台解决验证码问题。文章旨在提供模拟登录的教程，并非数据抓取，但提供了获取数据的可能路径。

摘要由CSDN通过智能技术生成

这篇文章主要介绍了python爬虫豆瓣网的模拟登录实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
思路

一、想要实现登录豆瓣关键点
分析真实post地址 ----寻找它的formdata，如下图,按浏览器的F12可以找到在这里插入图片描述
实战操作
实现：模拟登录豆瓣，验证码处理，登录到个人主页就算是success
数据：没有抓取数据，此实战主要是模拟登录和处理验证码的学习。要是有需求要抓取数据，编写相关的抓取规则即可抓取内容。
登录成功展示如图：在这里插入图片描述
spiders文件夹中DouBan.py主要代码如下：

# -*- coding: utf-8 -*-
import scrapy,urllib,re
from scrapy.http import Request,FormRequest
import ruokuai
'''
遇到不懂的问题？Python学习交流群：821460695满足你的需求，资料都已经上传群文件，可以自行下载！
'''
class DoubanSpider(scrapy.Spider):
 name = "DouBan"
 allowed_domains = ["douban.com"]
 #start_urls = ['http://douban.com/']
 header={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36"} #供登录模拟使用
 def start_requests(self):
  url='https://www.douban.com/accounts/login'
  return [Request(url=url,meta={"cookiejar":1},callback=self.parse)]#可以传递一个标示符来使用多个。如meta={'cookiejar': 1}这句，后面那个1就是标示符
 
 def parse(self, response):
  captcha=response.xpath('//*[@id="captcha_image"]/@src').extract() #获取验证码图片的链接
  print captcha
  if len(captcha)>0:
   '''此时有验证码'''
   #人工输入验证码
   #urllib.urlretrieve(captcha[0],filename="C:/Users/pujinxiao/Desktop/learn/douban20170405/douban/douban/spiders/captcha.png")
   #captcha_value=raw_input('查看captcha.png,有验证码请输入:')
 
   #用快若打