前期回顾
上篇博文我们学习了Python爬虫的四大库urllib
,requests
,BeautifulSoup
以及selenium
爬虫常用库介绍
- 学习了
urllib
与request
的常见用法 - 学习了使用
BeautifulSoup
来解析网页以及使用selenium
来驱动浏览器
# 我们导入了 web 驱动模块
from selenium import webdriver
# 接着我们创建了一个 Chrome 驱动
driver = webdriver.Chrome()
# 接着使用 get 方法打开百度
driver.get("https://www.baidu.com")
# 获取输入框并且往里面写入我们要搜索的内容
input = driver.find_element_by_css_selector('#kw')
input.send_keys("波多野结衣照片")
# 我们就获取到搜索这个按钮然后点击
button = driver.find_element_by_css_selector('#su')
button.click()
则是上次查看波多老师图片的代码,效果如下


抓取豆瓣电影并保存本地
我们来抓取一下豆瓣上排名前250的电影
import requests
from bs4 import BeautifulSoup
import xlwt
加群: