lxml笔记
import lxml.html
# 将html解析为统一格式
tree = lxml.html.fromstring(html)
# 返回一个列表
divs=tree.cssselect('css selector')
# 第一个div下的所有内容
divs[0].text_content()
# 第一个div中的文本
divs[0].text
# 提取property以og:image结尾的mate标签中属性content的值
img_url = tree.cssselect('head > meta[property$="og:image"]')[0].attrib['content']
使用 pip 安装/升级 lxml(升至 3.3.5) 时出现以下报错:
"error: command 'x86_64-linux-gnu-gcc' failed with exit status 1"
这是因为一些依赖包没有安装,可以使用以下命令更新依赖包:
$sudo apt-get build-dep python-lxml
在更新完依赖包后,再次执行 pip 安装:
$ sudo pip install lxml --upgrade