当如下图所示在寻找页面中的元素节点时,出现找不到节点的“name”的情况
page_url = "http://...../page/{page}"
for page in range(1, 3):
browser.get(page_url.format(page=page))
elements = browser.find_elements(By.CSS_SELECTOR, " .name")
for element in elements:
url = element.get_attribute("href")
print(url)
分析一下这段代码的问题:
第一:出现类名冲突的风险;导致找到的节点并非自己想要的节点;
第二,可能由于所找元素位于多个层级之后,找不到;
修改方案:逐层递减筛选,即改成".item .index .name"这样可以让浏览器对象更快的找到你想要的元素
第三,页面在加载的过程中,该类名还没有加载出来,就发生了页面的跳转,selenium来不及抓取;
修改方案:调用Selenium的等待机制,可选择显示等待和隐式等待,这里推荐选取隐式等待,(因为显示等待是固定的秒数,此时所需的类名可能已经被找寻出来,那多余的时间就是浪费时间;若没有找寻出来,我们则还需要调秒数,增加维护的时间;而且等待还与网速有关,所以变率很大,因此隐式等待等待所要的节点出现再抓取就体现了极大的优越性)
即在寻找节点前加上:wait.until("EC.visibility_of_element_located((By.css_SElECTOR, ".name"))")
最后,在找到节点后,要注意,你只是握住了开门的钥匙,但是房间里的东西(节点的属性和文本内容)还不属于你,你必须进去,即选择要text还是get-attribute