【Scrapy 常见知识错误：如果出现了Xpath选择后乱码或者非数据类型错误】

最新推荐文章于 2024-01-31 10:59:00 发布

范之度

最新推荐文章于 2024-01-31 10:59:00 发布

阅读量443

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/fan13938409755/article/details/106381785

版权

python 专栏收录该内容

174 篇文章 7 订阅

订阅专栏

https://blog.csdn.net/weixin_42105977/article/details/80390957

最好的解决方法

Element类型是'lxml.etree._Element'，某种意义来说同时是一个列表
列表的需要使用tag\attrib\text三个不同的属性来获取我们需要的东西
变量.tag获取到的是标签名是---字符串
变量.attrib获取到的是节点标签a的属性---字典

变量.text获取到的是标签文本--字符串

from bs4 import BeautifulSoup
from lxml import etree
import requests
gjc='SHKD-700'
#定义URL
html = "http://www.btanv.com/search/"+gjc+"-hot-desc-1"
#解码URL
html = requests.get(html).content.decode('utf-8')
#解析成xml
dom_tree = etree.HTML(html)
#在xml中定位节点，返回的是一个列表
links = dom_tree.xpath("//a[@class='download']")
for index in range(len(links)):
 # links[index]返回的是一个字典
 if (index % 2) == 0:
  print(links[index].tag)
  print(links[index].attrib)
  print(links[index].text)

  print(links[index])
  print(type(links[index]))
  print(links[index].tag)#获取<a>标签名a
  print(links[index].attrib)#获取<a>标签的属性href和class
  print(links[index].text)#获取<a>标签的文字部分