关于selenium中text返回空值的原因
这几天闲来无事,在做爬虫的过程中遇到了一个小问题,获取值的xpath正确,可以正常获取到标签属性。但是获取文本的时候却获取到了空值。
错误代码如下:
with open('核酸数据.csv', 'w', encoding='utf-8',newline='') as csvfile: # 新建并打开comment_con.csv文件
writer = csv.writer(csvfile)
writer.writerow(['机构名字', '所在县区','联系电话','机构地址']) # 写第一行
for n in range(2536): # 进行99次循环
m = n + 1
print(m)
#拉到底部
driver.execute_script(
'window.scrollTo(0,document.body.scrollHeight)'
)
#第三到第六个li标签li[position()>2][position()<5]
#//input[contains(@name,’na’)] 查找name属性中包含na关键字的页面元素
user = driver.find_elements_by_xpath("/html/body/div[2]/div[2]/div[4]/div[1]/div/p[1]") # 获取用户名
lis01 = driver.find_elements_by_xpath("/html/body/div[2]/div[2]/div[4]/div[1]/div/p[2]/span[2]") # 获取评论
lis02 = driver.find_elements_by_xpath("/html/body/div[2]/div[2]/div[4]/div[1]/div/p[3]/span[2]/span[1]") # 获取评论
lis03 = driver.find_elements_by_xpath("/html/body/div[2]/div[2]/div[4]/div[1]/div/p[4]/span[2]") # 获取评论
for i in range(len(user)):
writer.writerow([user[i].text, lis01[i].text, lis02[i].text , lis03[i].text])
print([user[i].text, lis01[i].text, lis02[i].text , lis03[i].text])
button2 = driver.find_element_by_xpath('//*[@id="nextPage"]').click() # 获取下一页按钮
sleep(random.uniform(0.6, 0.8)) # 生成一个a到b的小数等待时间
print("第%d页完成" % m)
错误例图:
解决方法:
将user[i].text改成user[i].get_attribute(‘textContent’)就可以正常获取到标签里的文本了。
原因:.text的适用范围的问题
requests对象的get和post方法都会返回一个Response对象,这个对象里面存的是服务器返回的所有信息,包括响应头,响应状态码等。其中返回的网页部分会存在.content和.text两个对象中。
两者区别在于,content中间存的是字节码,而text中存的是Beautifulsoup根据猜测的编码方式将content内容编码成字符串。
所以简而言之,.text是现成的字符串,.content还要编码,但是.text不是所有时候显示都正常,这是就需要用.content进行手动编码。