https://blog.csdn.net/lwgkzl/article/details/89237605
参考本片文章–简单的要死
总述:
一开始接触爬虫的时候,一个元素的定位能让我纠结半天。定位有很多种,我觉得最好用的是xpath,在这里分享一个用谷歌浏览器自动定位元素的trick,以后定位元素只需要复制就可以了。
第一步:找到在网页上定位元素
找到你需要定位的元素,右键-》检查,那么谷歌浏览器的有边框就会跳到相对应的元素位置。如图:这个是右键检查出来的。
我右键点击了话题榜,然后代码就自动跳到了话题榜所在的元素。
第二步:复制xpath
在检查的代码里面点击你需要定位的元素,右键-》copy->xpath就可以了
这样子的话,你接下来在代码里面可以crtl+v复制一下,得到的就是这一个元素的xpath位置:
//*[@id=“app”]/div[1]/div[1]/div[2]/div[2]/div[1]/div/div/div/ul/li[2]/span
注意在使用的时候,xpath需要包含在单引号里面,不能是双引号。
ok,这个单个元素,那么问题来了,有时候我们需要某一类元素怎么办呢?
我们可以来观察一下这个微博界面:有话题榜,热搜榜,新时代。。。几个小标题,我们来看一看他们的xpath。
//[@id=“app”]/div[1]/div[1]/div[2]/div[2]/div[1]/div/div/div/ul/li[1]/span
//[@id=“app”]/div[1]/div[1]/div[2]/div[2]/div[1]/div/div/div/ul/li[2]/span
//[@id=“app”]/div[1]/div[1]/div[2]/div[2]/div[1]/div/div/div/ul/li[3]/span
//[@id=“app”]/div[1]/div[1]/div[2]/div[2]/div[1]/div/div/div/ul/li[4]/span
发现什么规律没有,对了,只有倒数第二个元素li元素的下标不太一样。那么如果你想获取所有的小标题,你把下标去掉就可以了。
//*[@id=“app”]/div[1]/div[1]/div[2]/div[2]/div[1]/div/div/div/ul/li/span
以上。
————————————————
版权声明:本文为CSDN博主「lwgkzl」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/lwgkzl/article/details/89237605