趣味学python（010）

最新推荐文章于 2024-06-24 07:48:48 发布

大笨钟47

最新推荐文章于 2024-06-24 07:48:48 发布

阅读量122

点赞数

分类专栏： python（学习爬虫）

本文链接：https://blog.csdn.net/qq_45033722/article/details/97102532

版权

python（学习爬虫）专栏收录该内容

19 篇文章 0 订阅

订阅专栏

python——爬取豆瓣网

今天小编学习了爬取豆瓣网，别误会，不是电影?????

爬取一下电影名，电影信息，主演及评分等。

小编再写代码时，查阅资料，了解到了selenium中的显示等待以及隐式等待。

隐式等待：
设置一个最长等待时间，如果在规定的时间内加载完成，则执行下一步，否则一直等到时间戳结束。有个弊端，就是会等待整个页面加载完成才会进行下一步操作，但是有些时候页面元素早就加载好了，但是js之类的东西还没有加载好。

显示等待：

设置一个最长等待时间，指定想要查找的页面元素，如果在规定的时间内加载出来指定的元素就进行下一步操作。否则就抛出异常。

在selenium中，可以使用implicitly_wait time.sleep() webDriverWait()的方法

隐式等待：

from selenium import webdriver
driver.implicitly_wait(0.5)

强制等待：

import time
time.sleep(2)

显示等待：

每隔一段时间就检测一次当前页面元素是否存在。

from selenium import webdriver
from lxml import etree
import time

1,调用谷歌请求豆瓣网址拿到HTML数据
driver = webdriver.Chrome()
获取到豆瓣网的网址
driver.get(“https://movie.douban.com/typerank?type_name=剧情&type=11&interval_id=100:90&action=”)
driver.implicitly_wait(0.5)
html = driver.page_source
driver.close()
#print(html) # 对应网页的html数据
html = etree.HTML(html) # 整理成文档对象,就可以用xpath了

tit_list = html.xpath(’//span[@class=“movie-name-text”]/a/text()’) # 保存电影名称
misc_list = html.xpath(’//div[@class=“movie-misc”]/text()’) # 保存电影信息
crew_list = html.xpath(’//div[@class=“movie-crew”]/text()’) # 保存电影主演
rate_list = html.xpath(’//span[@class=“rating_num”]/text()’) # 保存电影评分

3.准备保存数据
for tit, misc, crew, rate in zip(tit_list, misc_list, crew_list, rate_list):
content = tit, misc, crew, rate
print(content)
with open(“豆瓣.txt”, ‘a’, encoding=“utf-8”) as f:
f.write(str(content) + ‘\n’)

这是爬取后的结果：
在这里插入图片描述