模拟登陆豆瓣,并爬取豆瓣电影简评
本人非计算机专业,个人兴趣爱好,这段代码用了4天写完的,其中还有很多可以优化的,有时间我会继续优化代码
1、其中有一些库我忘记用没用到,懒得去检查,就都导入了
2、其中有些代码可以优化,比如‘getShortCommentInformation1’函数,博主又懒了,下次我会修改的
3、这样的代码比较容易被封IP,我已经被封了【捂脸】。可以试试动态ip池,由于这个没有学过,只能后期有时间边学边做,把代码补充上去
import requests
import sys
import importlib
import re
from bs4 import BeautifulSoup
import traceback
import random
import time
import xlwt
# 定义所需函数
def getHTMLText(req,url):
try:
tl = random.uniform(2,5)
time.sleep(tl)
req = req
r = req.get(url)
#print(r.status_code)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
print('getHTMLText出错')
def getShortCommentInformation1(req,lst,commentURL):
html = getHTMLText(req,commentURL)
#print(html)
soup = BeautifulSoup(h