Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。下面代码实现了利用beautiful soup获取豆瓣电影top250。
# -*- coding: UTF-8 -*-
import urllib2
import re
from bs4 import BeautifulSoup
class Top250:
def __init__(self,page=0):
self.page=page
def ParseUrl(self):
Top250Url='http://movie.douban.com/top250?start=%s&filter=&format='%self.page
response=urllib2.urlopen(Top250Url)
html_doc=response.read()
soup=BeautifulSoup(html_doc)
for eachitem in soup.find_all(class_="item"):
print '='*120
title=eachitem.find(class_="title")
rating=eachitem.find(class_=re.compile("rating.*"))
quote=eachitem.find(class_="inq")
if title and rating:
print title.get_text()+": "+rating.get_text()
if quote:
print quote.get_text()
else:
print "没有评论"
if __name__=='__main__':
for i in range(0,10):
Inst=Top250(i*25)
Inst.ParseUrl()