python获取网页标题_python – 如何在请求中获取页面标题

您需要一个HTML解析器来解析HTML响应并获取标题标记的文本:

>>> import requests

>>> from lxml.html import fromstring

>>> r = requests.get('http://www.imdb.com/title/tt0108778/')

>>> tree = fromstring(r.content)

>>> tree.findtext('.//title')

u'Friends (TV Series 1994\u20132004) - IMDb'

当然还有其他选择,例如mechanize库:

>>> import mechanize

>>> br = mechanize.Browser()

>>> br.open('http://www.imdb.com/title/tt0108778/')

>>> br.title()

'Friends (TV Series 1994\xe2\x80\x932004) - IMDb'

选择什么选项取决于您接下来要做什么:解析页面以获取更多数据,或者,您可能想要与之交互:单击按钮,提交表单,关注链接等.

此外,您可能希望使用IMDB提供的API,而不是使用HTML解析,请参阅:

IMDbPY包的示例用法:

>>> from imdb import IMDb

>>> ia = IMDb()

>>> movie = ia.get_movie('0108778')

>>> movie['title']

u'Friends'

>>> movie['series years']

u'1994-2004'

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值