八行代码爬取豆瓣TOP250
这里使用了bs4库,解析html非常好用,此处为展示它的快速强大,借用下例说明,仅用8行代码便爬取到了top250的电影名字
import requests
from bs4 import BeautifulSoup
headers = {#此处填写cookie,User-agent
}
for i in range(25):
#html通过request请求得到,().text将()转化成文本
html= requests.get(
'https://movie.douban.com/top250?start='+str(i*25), headers=headers).text
soup = BeautifulSoup(html, 'html.parser')#解析html,建议首先搜索资料了解一下
items = soup.find_all('div', class_='item')#比对网页源代码加以理解,此处的'div'表示一个容器,find_all找到符合条件的所有信息,相信聪明的你们会很快入门这个函数
for item in items:
moviename = item.find('span', class_='title').text
print(moviename)
爬取的结果如下

如果要保存,可以保存文本,可以保存csv文件,或者sql文件。如何保存呢,参看我的新一篇博客(肚子饿了,恰饭)
如果要爬取Top250的所有信息,可以仿照爬取title类似处理,之后的博客写一些
欢迎大家看官点点赞呀!

本文展示了使用Python的requests和BeautifulSoup库仅用8行代码抓取豆瓣电影Top250电影名称的过程。通过设置headers获取网页内容,解析HTML并找到包含电影名的元素,然后循环遍历输出。爬取结果可保存为文本、CSV或SQL文件。后续博客将探讨如何获取更多电影信息。
2569

被折叠的 条评论
为什么被折叠?



