python爬虫爬取豆瓣电影前250名电影及评分（requests+pyquery)

最新推荐文章于 2023-03-15 22:33:42 发布

weixin_30820077

最新推荐文章于 2023-03-15 22:33:42 发布

阅读量588

点赞数

文章标签：爬虫 python

原文链接：http://www.cnblogs.com/babihuang/p/9085867.html

版权

写了两个版本:

1、面向过程版本：

import requests
from pyquery import PyQuery as pq
url='https://movie.douban.com/top250'
moves=[]
def sec(item):
    return item[1]
for i in range(0,255,25):
    content=requests.get(url+"?start="+str(i))#?start=25
    for  movie in pq(content.text).find('.item'):
        moves.append([pq(movie).find('.title').html(),pq(movie).find('.rating_num').html()])
moves.sort(key=sec,reverse=True)
for move in moves:
    print(move[0],move[1])

2、面向对象版本：

import requests
from pyquery import PyQuery as pq

class Douban:
    def __init__(self):
        self.moves=[]
    def geturl(self):
        url='https://movie.douban.com/top250?start=%s'
        urls=[]
        for i in range(0,250,25):
            urls.append(url%i)
        return urls
    def downloader(self,url):
        r=requests.get(url)
        return r.text
    def html_parser(self,page):
        for movie in pq(page).find('.item'):
            title=pq(movie).find('.title').html()
            score=pq(movie).find('.rating_num').html()
            self.moves.append({
                    'title':title,
                    'score':score,
                    })
    def output(self):
        self.moves.sort(key=lambda x:x['score'],reverse=True)
        for move in self.moves:
            print(move['title'],move['score'])
    def start(self):
        for url in self.geturl():
            #print(url)
            page=self.downloader(url)
            self.html_parser(page)
        self.output()
dou=Douban()
dou.start()

转载于:https://www.cnblogs.com/babihuang/p/9085867.html

weixin_30820077

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬虫爬取豆瓣电影前250名电影及评分（requests+pyquery)

写了两个版本:1、面向过程版本：import requestsfrom pyquery import PyQuery as pqurl='https://movie.douban.com/top250'moves=[]def sec(item): return item[1]for i in range(0,255,25): content=re...
复制链接

扫一扫