利用beautiful soup获取豆瓣top250

最新推荐文章于 2021-09-01 17:14:35 发布

jumango

最新推荐文章于 2021-09-01 17:14:35 发布

阅读量1k

点赞数

分类专栏： python 文章标签： python BeautifulSoup

本文链接：https://blog.csdn.net/junmohu/article/details/22068697

版权

python 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Beautiful Soup 是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航（navigating），搜索以及修改剖析树的操作。它可以大大节省你的编程时间。下面代码实现了利用beautiful soup获取豆瓣电影top250。

# -*- coding: UTF-8 -*-
import urllib2
import re
from bs4 import BeautifulSoup

class Top250:
    def __init__(self,page=0):
        self.page=page
    
    def ParseUrl(self):
        Top250Url='http://movie.douban.com/top250?start=%s&filter=&format='%self.page
        response=urllib2.urlopen(Top250Url)
        html_doc=response.read()
        soup=BeautifulSoup(html_doc)
        for eachitem in soup.find_all(class_="item"):
            print '='*120
            title=eachitem.find(class_="title")
            rating=eachitem.find(class_=re.compile("rating.*"))
            quote=eachitem.find(class_="inq")
            if title and rating:
                print title.get_text()+": "+rating.get_text()
            if quote:
                print quote.get_text()
            else:
                print "没有评论"
            
                
       
if __name__=='__main__':  
    for i in range(0,10):
        Inst=Top250(i*25)
        Inst.ParseUrl()