python selenium爬虫豆瓣_使用selenium+requests爬取豆瓣小组讨论列表

最新推荐文章于 2024-05-31 21:24:28 发布

悟无误

最新推荐文章于 2024-05-31 21:24:28 发布

阅读量1k

点赞数

文章标签： python selenium爬虫豆瓣

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29305313/article/details/112051860

版权

本文介绍了一个使用selenium和requests爬取豆瓣小组租房信息的项目。通过模拟登录获取cookie，利用requests发送请求并解析数据，最后使用jinja2渲染HTML展示结果。项目代码已上传至GitHub，可针对特定关键词筛选租房帖子。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

获取本文代码 · 我的GitHub

注：这个项目的代码会在我的GitHub持续优化、更新，而在本文中的代码则是最初版本的代码。

豆瓣小组

豆瓣有一个“小组”模块，有一些小组中会发布很多租房信息。在这里找租房信息的好处就在于，可以避免被那些第三方平台的中介忽悠，有更多的机会直接联系上房东，或有转租、寻求合租需求的人。

但是目前豆瓣租房小组存在的问题就是，信息高度不标准化，每一个人发布的信息的格式都各不相同，想要根据一些条件搜索到自己真正需要的信息比较困难，比如无法根据租金、地段、房型等条件去过滤，只能人工一个个去看，看一天下来，整个人都晕了，还不一定能找到中意的房子。

所以想到，搞一个爬虫呗，很多租房小组还是很活跃的，每天更新的信息量巨大，让人目不暇接，搞个爬虫自动化去爬取这些数据，并做一些简单的筛选，最终呈现在自己眼前，让自己找房子更有效率。

爬虫用到的技术点

使用selenium模拟登录，获取cookie，基本用法可以参见我的另一篇文章：使用selenium+requests登录网页并持久化cookie

使用requests库+cookie发送请求，获取数据。

使用lxml库和xpath语法解析网页数据，整理数据。

使用jinja2模板引擎渲染数据到HTML网页中，结构化地展示出来。

完整代码

下面的代码爬取了一个豆瓣租房小组的1000条讨论列表，从中筛选出了含有某些关键词的条目。假设将下面的代码保存在spider.py文件，则运行方式为：python spider.py 豆瓣用户名豆瓣用户密码讨论起始位置要爬取的条数，代码中有详细的注释：

# coding:utf-8

# 豆瓣爬虫核心方法

from __future__ import unicode_literals

from selenium import webdriver

import requests

import time

import json

from lxml import etree

import random

from operator import itemgetter

from jinja2 import Environment, FileSystemLoader

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

class DoubanSpider(object):

'''

豆瓣爬虫

'''

def __init__(self, user_name, password, headless = False):

'''

初始化

:param user_name: 豆瓣登录用户名

:param password: 豆瓣登录用户密码

:param headless: 是否显示webdriver浏览器窗口

:return: None

'''

self.user_name = user_name

self.password = password

self.headless = headless

# 登录

self.login()

def login(self):

'''

登录，并持久化cookie

:return: None

'''

# 豆瓣登录页面URL

login_url = 'https://www.douban.com/accounts/login'

# 获取chrome的配置

opt = webdriver.ChromeOptions()

# 在运行的时候不弹出浏览器窗口

if self.headless:

opt.set_headless()

# 获取driver对象

self.driver = webdriver.Chrome(chrome_options = opt)

# 打开登录页面

self.driver.get(login_url)

print '[login] o

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。