学习爬虫,用到上述三个概念,完全没接触过,研究如下:
-
Selenium1
web自动化测试工具集。
WebDriver就是一层基础的协议规范。
selenium通过xpath的定位,就想我们采用鼠标定位一样对页面做操作。
from selenium import webdriver #导入python版的selenium(webdriver)find_element_by_id("xx") #id定位方法
-
xpath2
XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。
常用的路径表达式:
表达式 描述 nodename 选取此节点的所有子节点。 / 从根节点选取。 // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 . 选取当前节点。 … 选取当前节点的父节点。 @ 选取属性。 关于xpath的定位,参见《Chrome、Firefox定位xpath方法2019年》《python selenium xpath定位方式》
-
div3
DIV元素是用来为HTML(标准通用标记语言下的一个应用)文档内大块(block-level)的内容提供结构和背景的元素。
可定义文档中的分区或节(division/section)。标签可以把文档分割为独立的、不同的部分。它可以用作严格的组织工具,并且不使用任何格式与其关联。如果用 id 或 class 来标记
,那么该标签的作用会变得更加有效。是一个块级元素。这意味着它的内容自动地开始一个新行。实际上,换行是固有的唯一格式表现。可以通过的 class 或 id 应用额外的样式。不必为每一个
都加上类或 id,虽然这样做也有一定的好处。