爬取豆瓣正在上映的电影
1.目标
爬取豆瓣上显示正在上映的电影的信息,包括电影名、评分、导演、主演等信息。将其保存在一个CSV
文件中,可以使用Excel打开查看。
2.思路分析
1.获取网页的URL
2.请求网页的源代码
3.解析源代码,提取目标信息
4.保存信息
3.准备工作
1.请求网页源代码使用webdriver.Chrome()
2.解析网页使用xpath
4.实施阶段
1.获取URL
https://movie.douban.com/cinema/nowplaying/xian/
2.请求网页的源代码
driver = webdriver.Chrome()
driver.get(r'https://movie.douban.com/cinema/nowplaying/xian/')
html=driver.page_source
driver.close()
3.分析网页源代码
使用Chrome查看玩野源代码,可以发现正在上映的电影都在该标签之下
而且,每一部电影都在一个li标签中,而我们需要的信息就包含在其中,我们只需要获取到,并且将之提取出来即可。
4.提取目标信息
html = etree.HTML