python爬取豆瓣电影评论_python正则匹配抓取豆瓣电影链接和评论代码分享

import urllib.request

import re

import time

def movie(movieTag):

tagUrl=urllib.request.urlopen(url)

tagUrl_read = tagUrl.read().decode('utf-8')

return tagUrl_read

def subject(tagUrl_read):

'''

这里还存在问题:

①这只针对单独的一页进行排序,而没有对全部页面的电影进行排序

②下次更新添加电影链接,考虑添加电影海报

③需要追加列表

④导入到本地txt或excel中

⑤在匹配电影名字时是否可以同时匹配链接与名字、评分、评论组成数组

'''

#正则表达式匹配电影的名字(链接)、评分与评论

nameURL = re.findall(r'(http://movie.douban.com/subject/[0-9.]+)\/"\s+title="(.+)"',tagUrl_read)

scoreURL = re.findall(r'([0-9.]+)<\/span>',tagUrl_read)

evaluateURL = re.findall(r'\((\w+)人评价\)<\/span>',tagUrl_read)

movieLists = list(zip(nameURL,scoreURL,evaluateURL))

newlist.extend(movieLists)

return newlist

#用quote处理特殊(中文)字符

movie_type = urllib.request.quote(input('请输入电影类型(如剧情、喜剧、悬疑):'))

page_end=int(input('请输入搜索结束时的页码:'))

num_end=page_end*20

num=0

page_num=1

newlist=[]

while num

url=r'http://movie.douban.com/tag/%s?start=%d'%(movie_type,num)

movie_url = movie(url)

subject_url=subject(movie_url)

num=page_num*20

page_num+=1

else:

#使用sorted函数对列表进行排列,reverse参数为True时升序,默认或False时为降序, key=lambda还不是很明白这里的原理

movieLIST = sorted(newlist, key=lambda movieList : movieList[1],reverse = True)

for movie in movieLIST:

print(movie)

time.sleep(3)

print('结束')

Python使用正则表达式暴力爬取豆瓣电影是一种可以快速获取电影信息的方法。首先,我们需要使用requests库获取豆瓣电影页面的HTML源代码。接下来,使用正则表达式对源代码进行匹配和提取。例如,如果我们想获取电影的名称、评分和导演信息,我们可以使用正则表达式匹配对应的HTML标签并提取出所需的文本信息。比如使用正则表达式" <span class="title">(.+?)</span>" 可以匹配到电影名称所在的标签。 接下来,我们可以通过循环遍历的方式不断获取更多的电影信息。假设每个页面显示20部电影,我们可以使用正则表达式找到下一页的链接,并不断访问并抓取数据。 当然,使用正则表达式爬取数据也有一些缺点。因为正则表达式往往较为复杂,所以代码可读性较差,容易出错和不易维护。此外,如果网页结构发生变化,我们需要手动修改正则表达式以适应变化,工作量较大。因此,当网页结构较为复杂或者需要爬取大量数据时,我们可以考虑使用更强大的爬虫框架如Scrapy,它集成了更多方便的功能,如自动跟踪链接和处理异步加载的数据等。 总之,对于简单的爬取任务,Python使用正则表达式暴力爬取豆瓣电影是一种比较直接且有效的方法。但是需要注意的是遵守豆瓣网站的爬虫规则,并且避免频繁请求造成对网站的负载过大。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值