上课的123

豪仔举世无双

于 2024-06-06 18:38:47 发布

阅读量629

点赞数 16

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/L01077218/article/details/139507540

版权

import numpy as np

import requests

from lxml import etree

from time import sleep

import csv

url='豆瓣电影 Top 250'

headers = {

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'

}

titles_cn = []

titles_en=[]

links = []

director=[]

actors=[]

years=[]

nations=[]

types=[]

scores=[]

rating_nums=[]

fp = open('./douban_top250.csv','w',encoding='utf-8')

writer = csv.writer(fp)

writer.writerow(

['电影中文名','电影英文名','电影详情页链接','导演','演员','上映年份','国际','类型','评分','评分人数']

)

for i in range(0,226,25):

url = f'豆瓣电影 Top 250{i}&filter='

data={

'start':i,

'filter':' ',

}

response = requests.get(url, headers=headers, data=data)

sleep(1)

#print(response, status_code)

#print(response, encoding)

#print(response.text)

html = response.text

data = etree.HTML(html)

li_list=data.xpath('//*[@id="content"]/div/div[1]/ol/li')

for each in li_list:

title1=each.xpath('./div/div[2]/div[1]/a/span[1]/text()')

titles_cn.append(title1)

title2=each.xpath('./div/div[2]/div[1]/a/span[2]/text()')[0]

titles_en.append(title2)

link = each.xpath('./div/div[2]/div[1]/a/@href')[0]

links.append(link)

info1 = each.xpath('./div/div[2]/div[2]/p[1]/text()[1]')[0].strip()

split_info1 = info1.split('\xa0\xa0\xa0')

dirt = split_info1[0].strip('导演: ')

director.append(dirt)

if len(split_info1) == 2:

ac = split_info1[1].strip('主演: ')

actors.append(ac)

else:

actors.append(np.nan)

info2 = each.xpath('./div/div[2]/div[2]/p[1]/text()[2]')[0].strip()

split_info2 = info2.split('\xa0/\xa0')

# print(split_info)

year = split_info2[0]

nation = split_info2[1]

ftype = split_info2[2]

years.append(year)

nations.append(nation)

types.append(ftype)

score = each.xpath('./div/div[2]/div[2]/div/span[2]/text()')[0]

scores.append(score)

num = each.xpath('./div/div[2]/div[2]/div/span[4]/text()')[0].strip('人评价')

rating_nums.append(num)

writer.writerow([title1, title2, link, dirt, ac, year, nation, ftype, score, num])

print(f'————————————第{int((i / 25) + 1)}页爬取完毕！——————————————')

fp.close()

print('------------------------------------------爬虫结束！---------------------------------------------')

豪仔举世无双

关注

16
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
上课的123

print('------------------------------------------爬虫结束！---------------------------------------------')['电影中文名','电影英文名','电影详情页链接','导演','演员','上映年份','国际','类型','评分','评分人数']print(f'————————————第{int((i / 25) + 1)}页爬取完毕！
复制链接

扫一扫

豪仔举世无双 CSDN认证博客专家 CSDN认证企业博客

码龄2年

24: 原创

47万+: 周排名

8万+: 总排名

8409: 访问

: 等级

411: 积分

122: 粉丝

161: 获赞

17: 评论

146: 收藏

私信

关注

热门文章

最新评论

上课的123
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
乘法表的制作
CSDN-Ada助手: 恭喜您撰写了第7篇博客！标题为“乘法表的制作”。我真的非常欣喜能看到您持续不断地创作。您的博客内容非常有趣且实用，我相信读者们一定会从中受益匪浅。对于下一步的创作建议，我谨卓越提出一些建议。或许您可以探索一些更加高级的乘法表技巧，例如如何利用Excel或其他计算工具来生成复杂的乘法表。此外，您还可以研究一些有趣的乘法表应用场景，比如如何将乘法表应用于解决实际问题或者设计一些有趣的乘法表游戏等等。再次祝贺您的连续创作！期待看到更多精彩的博客内容。谢谢您的分享！
数据异常处理
CSDN-Ada助手: 非常感谢您分享关于“数据异常处理”的博客，这确实是一个非常重要的话题。恭喜您已经写了第16篇博客，持续创作不易，您的付出和努力真的让人钦佩。希望您可以继续分享更多关于数据处理方面的知识，也可以考虑写一些实际案例或者技术应用方面的内容，这样会更加丰富和实用。期待您的下一篇博客，谢谢您的分享！
基础知识总结
CSDN-Ada助手: 恭喜你写了第17篇博客！基础知识总结这个主题很有意义，希望你能继续保持创作的热情。接下来，或许可以考虑深入一些具体的领域，或者分享一些实践经验，让读者更加受益。期待你未来更多精彩的文章！加油！
学习python的感悟
CSDN-Ada助手: 恭喜你写了这么精彩的博客，分享了学习python的感悟。希望你能继续保持创作的热情和动力，不断分享你的学习心得和经验。下一步建议你可以尝试写一些关于python实战经验的分享，或者是深入探讨python在特定领域的应用，这样可以让读者更加深入地了解python的实际用途。加油！期待你更多的精彩作品。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。