python爬虫爬取豆瓣电影Top250

理想程序员二号

于 2024-04-27 16:51:02 发布

阅读量692

点赞数 25

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/m0_60749700/article/details/138252975

版权

headers = {

‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36’

}

res = requests.get(url=url, headers=headers)

response = res.content.decode(“utf-8”)

#电影名称

movie_title=html.xpath(“//div[@class=‘hd’]//a//span[1]//text()”)

#电影评分

movie_score=html.xpath(‘//div[@class=“star”]//span[2]//text()’)

#电影排名

movie_degree=html.xpath(‘//div[@class=“item”]//div//em//text()’)

#电影海报地址

movie_poster=html.xpath(‘//div[@class=“pic”]//a//img/@src’)

#导演,使用正则

movie_director = re.findall(r"导演:(.*?);", response)

a = “”.join(movie_director).split(“&nbsp”)#因为使用的正则抓取下来的字符串含有&nbsp，使用split()函数进行切分

movie_director = a[:25]

if movie_director==“”:

movie_director=“”

else:

movie_director=movie_director

#主演，使用正则

movie_main_act = re.findall(“主演: (.*)
”, response)

movie_main_act = “”.join(movie_main_act).split(“…”)

if movie_main_act==“”:

movie_main_act=“”

else:

movie_main_act=movie_main_act

#上映日期

movie_datatime= re.findall(r"(\d*) ", response)

b = “”.join(movie_datatime)#转化为字符串

movie_datatime = [b[i:i + 4] for i in range(0, len(b), 4)]#转换的字符串是一对数字如199419931994…,所以进行切分 4个一切就是年份

if movie_datatime==“”:

movie_datatime=“”

else:

movie_datatime=movie_datatime

#电影国家

movie_country= re.findall(" / (.*?) ", response)

#电影类型,这个原网页写的有点不好爬我看了网上其他的也都看不明白所以就

#自己用这样的方法写出来然后就匹配出来了，可定还有简便的方法，以后学习继续改进

movie_type= html.xpath(“//div[@class=‘bd’]/p/text()[2]”)

n = ‘’.join([’ ‘.join([i.strip() for i in price.strip().split(’\n’)]) for price in movie_type][::2]).split(“\xa0/\xa0”)#转换为字符串进行切分

#n 返回[‘1994’, ‘美国’, ‘犯罪剧情1993’, ‘中国大陆中国香港’, ‘剧情爱情同性1994’, ‘美国’, ‘剧情爱情1994’, ‘法国美国’, ‘剧情动作犯罪1997’, ‘意大利’, ‘剧情喜剧爱情战争1997’, ‘美国’, ‘剧情爱情灾难2001’, ‘日本’, ‘剧情动画奇幻1993’, ‘美国’, ‘剧情历史战争2010’, ‘美国英国’, ‘剧情科幻悬疑冒险2009’, ‘美国英国’, ‘剧情1998’, ‘意大利’, ‘剧情音乐1998’, ‘美国’, ‘剧情科幻2009’, ‘印度’, ‘剧情喜剧爱情歌舞2008’, ‘美国’, ‘科幻动画冒险2004’, ‘法国瑞士德国’, ‘剧情音乐2014’, ‘美国英国加拿大冰岛’, ‘剧情科幻冒险1995’, ‘中国香港中国大陆’, ‘喜剧爱情奇幻古装2011’, ‘韩国’, ‘剧情2016’, ‘美国’, ‘喜剧动画冒险2002’, ‘中国香港’, ‘剧情犯罪悬疑1988’, ‘日本’, ‘动画奇幻冒险1972’, ‘美国’, ‘剧情犯罪2006’, ‘美国’, ‘剧情传记家庭2010’, ‘美国’, ‘剧情喜剧爱情2011’, ‘法国’, ‘剧情喜剧’]

l = n[2::2]#因为上面的n列表我们包含的电影类型，所以n[2::2]操作把包含类型都取出来

o = ‘’.join(l)#转换为字符串

h = re.sub(“\d{4}”, “;”, o)#使用正则将数字全都用;符号代替

#h 返回为犯罪剧情;剧情爱情同性;剧情爱情;剧情动作犯罪;剧情喜剧爱情战争;剧情爱情灾难;剧情动画奇幻;剧情历史战争;剧情科幻悬疑冒险;剧情;剧情音乐;剧情科幻;剧情喜剧爱情歌舞;科幻动画冒险;剧情音乐;剧情科幻冒险;喜剧爱情奇幻古装;剧情;喜剧动画冒险;剧情犯罪悬疑;动画奇幻冒险;剧情犯罪;剧情传记家庭;剧情喜剧爱情;剧情喜剧

movie_type = h.lstrip(“\n”)#这个之前打印的最左边有一个\n符号所以使用lstrip()函数去掉

movie_type = movie_type.split(“;”)#然后用字符串split()函数以;符号进行切分

if movie_type==“”:

movie_type=“”

else:

movie_type=movie_type

#movie_type 最终的返回 [‘犯罪剧情’, ‘剧情爱情同性’, ‘剧情爱情’, ‘剧情动作犯罪’, ‘剧情喜剧爱情战争’, ‘剧情爱情灾难’, ‘剧情动画奇幻’, ‘剧情历史战争’, ‘剧情科幻悬疑冒险’, ‘剧情’, ‘剧情音乐’, ‘剧情科幻’, ‘剧情喜剧爱情歌舞’, ‘科幻动画冒险’, ‘剧情音乐’, ‘剧情科幻冒险’, ‘喜剧爱情奇幻古装’, ‘剧情’, ‘喜剧动画冒险’, ‘剧情犯罪悬疑’, ‘动画奇幻冒险’, ‘剧情犯罪’, ‘剧情传记家庭’, ‘剧情喜剧爱情’, ‘剧情喜剧’]

datalist=list(zip(movie_title,movie_score,movie_degree,movie_director,movie_main_act,movie_poster,movie_datatime,movie_country,movie_type))

total_data=[{“电影名称”:i[0],“电影评分”:i[1],“电影排名”:i[2],“导演”:i[3],“主演”:i[4],“电影海报地址”:i[5],“上映日期”:i[6],“电影国家”:i[7],“电影类型”:i[8],} for i in datalist]

print(total_data)

for s in total_data:

print(s)

将爬取分数据写入文件中

with open(“./zuizhongdouban.json”,‘a+’,encoding=‘utf-8’) as f:

f.write(json.dumps(s,ensure_ascii=False))

f.write(“\n”)

def main(num):

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

理想程序员二号

关注

25
点赞
踩
28

收藏

觉得还不错? 一键收藏
2
评论
python爬虫爬取豆瓣电影Top250

Win64;#电影名称#电影评分#电影排名#电影海报地址#导演,使用正则movie_director = re.findall(r"导演:(.*?a = “”.join(movie_director).split(“ ”)#因为使用的正则抓取下来的字符串含有，使用split()函数进行切分else:#主演，使用正则movie_main_act = re.findall(“主演: (.*)else:#上映日期b = “”.join(movie_datatime)#转化为字符串。
复制链接

扫一扫