html代码是盲的,它包含html中的字符串“PRICE”。该部分字符串必须与html文本匹配。如果文本使用xpath匹配(部分匹配),则应返回特定的html标记路径。
注意:我需要为多个站点自动执行此逻辑。我应该使用通用规则
(用于定位“Price”,获取父标记)
这是一个例子:html="""
PRICE: 125 Rs.
我用了lxmlfrom lxml.html.clean import Cleaner
cleaner =Cleaner(page_structure=False)
cl = cleaner.clean_html(html)
cleaned_html = fromstring(cl)
for element in cleaned_html:
if element.text == 'PRICE':
print "matched"
如何使用Xpath表达式编写它?
我只需要使用xpath表达式获取div类路径。
同样的问题是如果我找到“PRICE:”字符串。
我必须得到父有效标记,即类名为“price_class”的“div”。
但在这里,我必须跳过或删除不需要的标记,如字体、粗体、斜体。。。
您能建议我获取所定位字符串的父有效标记吗?