xpath
1.xpath解析路径的时候,标签下标无法跟变量
xpath解析路径的时候,标签下标无法跟变量如:
count=1
url_text=browser.find_element_by_xpath('//tbody/tr[count]/td[1]/a/@href')
无法成功
解决方法:
直接把所有的元素以形式储存下来,然后用list的下标即可获取,如:
count=str(input("please input a number"))
url_text=browser.find_element_by_xpath('//tbody/tr/td[1]/a/@href')
url=url_text[count]
2.xpath解析文本的时候,遇到br就结束提取的问题
xpath解析文本的时候,遇到
<br>
就结束了,无法读取下面所写的文本内容
就算用如:
content=str(tree_son.xpath('//div[@id="content"]/descendant-or-self::text()')[0])
的方法也不能实现对文本的抓取
解决方法:建议使用beautifulsoup+正则表达式提取
findcontent=re.compile(r'id="content">(.*?)推荐',re.S)
for item in bs.find_all("div",id="content"):
content=re.findall(findcontent,str(item))[0]