您需要一个HTML解析器来解析HTML响应并获取标题标记的文本:
>>> import requests
>>> from lxml.html import fromstring
>>> r = requests.get('http://www.imdb.com/title/tt0108778/')
>>> tree = fromstring(r.content)
>>> tree.findtext('.//title')
u'Friends (TV Series 1994\u20132004) - IMDb'
当然还有其他选择,例如mechanize库:
>>> import mechanize
>>> br = mechanize.Browser()
>>> br.open('http://www.imdb.com/title/tt0108778/')
>>> br.title()
'Friends (TV Series 1994\xe2\x80\x932004) - IMDb'
选择什么选项取决于您接下来要做什么:解析页面以获取更多数据,或者,您可能想要与之交互:单击按钮,提交表单,关注链接等.
此外,您可能希望使用IMDB提供的API,而不是使用HTML解析,请参阅:
IMDbPY包的示例用法:
>>> from imdb import IMDb
>>> ia = IMDb()
>>> movie = ia.get_movie('0108778')
>>> movie['title']
u'Friends'
>>> movie['series years']
u'1994-2004'