八行代码爬取豆瓣TOP250
这里使用了bs4库,解析html非常好用,此处为展示它的快速强大,借用下例说明,仅用8行代码便爬取到了top250的电影名字
import requests
from bs4 import BeautifulSoup
headers = {#此处填写cookie,User-agent
}
for i in range(25):
#html通过request请求得到,().text将()转化成文本
html= requests.get(
'https://movie.douban.com/top250?start='+str(i*25), headers=headers).text
soup = BeautifulSoup(html, 'html.parser')#解析html,建议首先搜索资料了解一下
items = soup.find_all('div', class_='item')#比对网页源代码加以理解,此处的'div'表示一个容器,find_all找到符合条件的所有信息,相信聪明的你们会很快入门这个函数
for item in items:
moviename = item.find('span', class_='title').text
print(moviename)
爬取的结果如下
如果要保存,可以保存文本,可以保存csv文件,或者sql文件。如何保存呢,参看我的新一篇博客(肚子饿了,恰饭)
如果要爬取Top250的所有信息,可以仿照爬取title类似处理,之后的博客写一些
欢迎大家看官点点赞呀!