爬虫笔记-使用python爬取豆瓣短评

本文介绍了如何使用Python进行网络爬虫,模拟登录豆瓣网站以抓取超过200条的电影短评。通过获取动态IP、设置代理、模拟登录并解析HTML内容,实现了对评论的深度抓取。在爬取过程中,每20次请求更换一次IP以避免被封禁,并将抓取到的数据存储为TXT文件。
摘要由CSDN通过智能技术生成
遇到的问题:如果不模拟登陆的话只能爬取200条评论,但是实现模拟登陆之后也只能爬取500条数据

# -*- encoding:utf-8 -*-

import requests
from bs4 import BeautifulSoup
import re
import random
import time

#使用session来保存登陆信息
s = requests.session()

#获取动态ip,防止ip被封
def get_ip_list(url, headers):
    web_data = requests.get(url, headers=headers)
    soup = BeautifulSoup(web_data.text, 'lxml')
    ips = soup.find_all('tr')
    ip_list = []
    for i in range(1, len(ips)):
        ip_info = ips[i]
        tds = ip_info.find_all('td&#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值