一、学习内容
- 学习xpath,使用lxml+xpath提取内容。
- 使用xpath提取丁香园论坛的回复内容。
- 丁香园直通点:http://www.dxy.cn/bbs/thread/626626#626626
二、代码示例
import requests
from lxml import etree
def dx_reply():
url = 'http://www.dxy.cn/bbs/thread/626626'
headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36"}
res = requests.get(url=url,headers=headers)
response = res.text
html_etree = etree.HTML(response)
result_content = html_etree.xpath('//td[@class="postbody"]/text()')
#<td class="postbody">'text'</td> </td>
result_username = html_etree.xpath('//div[@class="auth"]/a/text()')
# <div class="auth"><a href="http://i.dxy.cn/profile/楼医生" target="_blank">楼医生</a></div>
datas =[]
new_datas=[]
for i in range(len(result_username)-1):
datas.append(result_username[i]+'#'+result_content[i])
for item in datas:
x = item.replace('\n','').replace('\t','').replace(' ','').replace('#','\n')
new_datas.append(x)
for items in new_datas:
print(items)
dx_reply()
结果:
楼医生
我遇到一个“怪”病人,向大家请教。她,42岁。反复惊吓后晕厥30余年。每次受响声惊吓后发生跌倒,短暂意识丧失。无逆行性遗忘,无抽搐,无口吐白沫,无大小便失禁。多次跌倒致外伤。婴儿时有惊厥史。入院查体无殊。ECG、24小时动态心电图无殊;头颅MRI示小软化灶;脑电图无殊。入院后有数次类似发作。请问该患者该做何诊断,还需做什么检查,治疗方案怎样?
lion000
从发作的症状上比较符合血管迷走神经性晕厥,直立倾斜试验能协助诊断。在行直立倾斜实验前应该做常规的体格检查、ECG、UCG、holter和X-ray胸片除外器质性心脏病。
xghrh
贴一篇“口服氨酰心安和依那普利治疗血管迷走性晕厥的疗效观察”