一、前言
2020-04-3日爬虫练习
每日一个爬虫小练习,学习爬虫的记得关注哦!
学习编程就像学习骑自行车一样,对新手来说最重要的是持之以恒的练习。
在《汲取地下水》这一章节中看见的一句话:“别担心自己的才华或能力不足。持之以恒地练习,才华便会有所增长”,现在想来,真是如此。
最近在学习 数据解析之BeautifulSoup4库 ,所以写这篇爬虫来练练手,巩固知识点。
BeautifulSoup4知识点参考我博文:【爬虫学的好,基础少不了】:数据解析之BeautifulSoup4库
二、需求:
爬取豆瓣电影TOP250,并储存到本地CSV
三、技术路线:
技术路线:
1.requests
2.BeautifulSoup
四、爬虫示例:
import requests
from bs4 import BeautifulSoup
import time
class Douban:
def __init__(self):
self.headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36',
'referer': 'https://movie.douban.com/cinema/nowplaying/wuhan/'
}
# 获取分页html
def get_html(self, url):
try:
result = requests.get(url=url, headers=self.headers)
result.raise_for_status() # 主动抛出一个异常
html = BeautifulSoup(result.text, 'lxml')
return html
except: