模拟登陆豆瓣，并爬取豆瓣电影简评

最新推荐文章于 2023-11-23 11:50:49 发布

jinjin_z

最新推荐文章于 2023-11-23 11:50:49 发布

阅读量2.9k

点赞数

文章标签： python 爬虫豆瓣流浪地球模拟登陆

本文链接：https://blog.csdn.net/jinjin_z/article/details/86776227

版权

模拟登陆豆瓣，并爬取豆瓣电影简评

本人非计算机专业，个人兴趣爱好，这段代码用了4天写完的，其中还有很多可以优化的，有时间我会继续优化代码
1、其中有一些库我忘记用没用到，懒得去检查，就都导入了
2、其中有些代码可以优化，比如‘getShortCommentInformation1’函数，博主又懒了，下次我会修改的
3、这样的代码比较容易被封IP，我已经被封了【捂脸】。可以试试动态ip池，由于这个没有学过，只能后期有时间边学边做，把代码补充上去

import requests
import sys
import importlib
import re
from bs4 import BeautifulSoup
import traceback
import random
import time
import xlwt

# 定义所需函数
def getHTMLText(req,url):
    try:
        tl = random.uniform(2,5)
        time.sleep(tl)
        req = req
        r = req.get(url)
        #print(r.status_code)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        print('getHTMLText出错')

def getShortCommentInformation1(req,lst,commentURL):
    html = getHTMLText(req,commentURL)
    #print(html)
    soup = BeautifulSoup(h

最低0.47元/天解锁文章

jinjin_z

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
模拟登陆豆瓣，并爬取豆瓣电影简评

模拟登陆豆瓣，并爬取豆瓣电影简评本人非计算机专业，个人兴趣爱好，这段代码用了4天写完的，其中还有很多可以优化的，有时间我会继续优化代码1、其中有一些库我忘记用没用到，懒得去检查，就都导入了2、其中有些代码可以优化，比如‘getShortCommentInformation1’函数，博主又懒了，下次我会修改的3、这样的代码比较容易被封IP，我已经被封了【捂脸】。可以试试动态ip池，由于这个没...
复制链接

扫一扫