python爬虫爬取豆瓣电影Top250,2024年最新贼好用的Python学习路线集合

movie_director = re.findall(r"导演:(.*?);", response)

a = “”.join(movie_director).split(“&nbsp”)#因为使用的正则抓取下来的字符串含有&nbsp,使用split()函数进行切分

movie_director = a[:25]

if movie_director==“”:

movie_director=“”

else:

movie_director=movie_director

#主演,使用正则

movie_main_act = re.findall(“主演: (.*)
”, response)

movie_main_act = “”.join(movie_main_act).split(“…”)

if movie_main_act==“”:

movie_main_act=“”

else:

movie_main_act=movie_main_act

#上映日期

movie_datatime= re.findall(r"(\d*) ", response)

b = “”.join(movie_datatime)#转化为字符串

movie_datatime = [b[i:i + 4] for i in range(0, len(b), 4)]#转换的字符串是一对数字如199419931994…,所以进行切分 4个一切就是年份

if movie_datatime==“”:

movie_datatime=“”

else:

movie_datatime=movie_datatime

#电影国家

movie_country= re.findall(" / (.*?) ", response)

#电影类型,这个原网页写的有点不好爬 我看了网上其他的也都看不明白 所以就

#自己用这样的方法写出来 然后就匹配出来了,可定还有简便的方法 ,以后学习继续改进

movie_type= html.xpath(“//div[@class=‘bd’]/p/text()[2]”)

n = ‘’.join([’ ‘.join([i.strip() for i in price.strip().split(’\n’)]) for price in movie_type][::2]).split(“\xa0/\xa0”)#转换为字符串进行切分

#n 返回[‘1994’, ‘美国’, ‘犯罪 剧情1993’, ‘中国大陆 中国香港’, ‘剧情 爱情 同性1994’, ‘美国’, ‘剧情 爱情1994’, ‘法国 美国’, ‘剧情 动作 犯罪1997’, ‘意大利’, ‘剧情 喜剧 爱情 战争1997’, ‘美国’, ‘剧情 爱情 灾难2001’, ‘日本’, ‘剧情 动画 奇幻1993’, ‘美国’, ‘剧情 历史 战争2010’, ‘美国 英国’, ‘剧情 科幻 悬疑 冒险2009’, ‘美国 英国’, ‘剧情1998’, ‘意大利’, ‘剧情 音乐1998’, ‘美国’, ‘剧情 科幻2009’, ‘印度’, ‘剧情 喜剧 爱情 歌舞2008’, ‘美国’, ‘科幻 动画 冒险2004’, ‘法国 瑞士 德国’, ‘剧情 音乐2014’, ‘美国 英国 加拿大 冰岛’, ‘剧情 科幻 冒险1995’, ‘中国香港 中国大陆’, ‘喜剧 爱情 奇幻 古装2011’, ‘韩国’, ‘剧情2016’, ‘美国’, ‘喜剧 动画 冒险2002’, ‘中国香港’, ‘剧情 犯罪 悬疑1988’, ‘日本’, ‘动画 奇幻 冒险1972’, ‘美国’, ‘剧情 犯罪2006’, ‘美国’, ‘剧情 传记 家庭2010’, ‘美国’, ‘剧情 喜剧 爱情2011’, ‘法国’, ‘剧情 喜剧’]

l = n[2::2]#因为上面的n列表我们包含的电影类型,所以n[2::2]操作把包含类型都取出来

o = ‘’.join(l)#转换为字符串

h = re.sub(“\d{4}”, “;”, o)#使用正则将数字全都用;符号代替

#h 返回为 犯罪 剧情;剧情 爱情 同性;剧情 爱情;剧情 动作 犯罪;剧情 喜剧 爱情 战争;剧情 爱情 灾难;剧情 动画 奇幻;剧情 历史 战争;剧情 科幻 悬疑 冒险;剧情;剧情 音乐;剧情 科幻;剧情 喜剧 爱情 歌舞;科幻 动画 冒险;剧情 音乐;剧情 科幻 冒险;喜剧 爱情 奇幻 古装;剧情;喜剧 动画 冒险;剧情 犯罪 悬疑;动画 奇幻 冒险;剧情 犯罪;剧情 传记 家庭;剧情 喜剧 爱情;剧情 喜剧

movie_type = h.lstrip(“\n”)#这个之前打印的最左边有一个\n符号 所以使用lstrip()函数去掉

movie_type = movie_type.split(“;”)#然后用字符串split()函数以;符号进行切分

if movie_type==“”:

movie_type=“”

else:

movie_type=movie_type

#movie_type 最终的返回 [‘犯罪 剧情’, ‘剧情 爱情 同性’, ‘剧情 爱情’, ‘剧情 动作 犯罪’, ‘剧情 喜剧 爱情 战争’, ‘剧情 爱情 灾难’, ‘剧情 动画 奇幻’, ‘剧情 历史 战争’, ‘剧情 科幻 悬疑 冒险’, ‘剧情’, ‘剧情 音乐’, ‘剧情 科幻’, ‘剧情 喜剧 爱情 歌舞’, ‘科幻 动画 冒险’, ‘剧情 音乐’, ‘剧情 科幻 冒险’, ‘喜剧 爱情 奇幻 古装’, ‘剧情’, ‘喜剧 动画 冒险’, ‘剧情 犯罪 悬疑’, ‘动画 奇幻 冒险’, ‘剧情 犯罪’, ‘剧情 传记 家庭’, ‘剧情 喜剧 爱情’, ‘剧情 喜剧’]

datalist=list(zip(movie_title,movie_score,movie_degree,movie_director,movie_main_act,movie_poster,movie_datatime,movie_country,movie_type))

total_data=[{“电影名称”:i[0],“电影评分”:i[1],“电影排名”:i[2],“导演”:i[3],“主演”:i[4],“电影海报地址”:i[5],“上映日期”:i[6],“电影国家”:i[7],“电影类型”:i[8],} for i in datalist]

print(total_data)

for s in total_data:

print(s)

将爬取分数据写入文件中

with open(“./zuizhongdouban.json”,‘a+’,encoding=‘utf-8’) as f:

f.write(json.dumps(s,ensure_ascii=False))

f.write(“\n”)

def main(num):

#定义url

url=f’https://movie.douban.com/top250?start={num}’

调用发送get请求函数

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
img
img



既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Python开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加V获取:vip1024c (备注Python)
img

最后

🍅 硬核资料:关注即可领取PPT模板、简历模板、行业经典书籍PDF。
🍅 技术互助:技术群大佬指点迷津,你的问题可能不是问题,求资源在群里喊一声。
🍅 面试题库:由技术群里的小伙伴们共同投稿,热乎的大厂面试真题,持续更新中。
🍅 知识体系:含编程语言、算法、大数据生态圈组件(Mysql、Hive、Spark、Flink)、数据仓库、Python、前端等等。

一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
img

个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**
[外链图片转存中…(img-ElCv15he-1712710465320)]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值