在使用xpath进行爬虫的过程中总是出现各种各样的小问题,于是我就上网查了一下,详细的学习了xpath语法,是在w3school上看的,学习过程中我发现一个小问题,在原文中给出的路径表达式列表里,对于“nodename”这一类表达式的说明是“选取此节点的所有子节点”,结合一段html文本:
text = '''
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</ul>
</di