requests爬取豆瓣top250 movie

3人阅读 评论(0) 收藏 举报
分类:
import requests
from time import time
import re

url = 'https://movie.douban.com/top250'

def fetch_page(url):
    response = requests.get(url)
    return response

def parse(url):
    response = fetch_page(url)
    page = response.content
    #print(page)

    fetch_list = set()
    result = []

    for title in re.findall(r'<a href=.*\s.*<span class="title">(.*)</span>', page):
        result.append(title)

    for postfix in re.findall(r'<a href="(\?start=.*?)"', page):
        fetch_list.add(url + postfix.decode())

    for url in fetch_list:
        response = fetch_page(url)
        page = response.content
        for title in re.findall(r'<a href=.*\s.*<span class="title">(.*)</span>', page):
            result.append(title)

    for i, title in enumerate(result, 1):
        #title = title.decode('utf-8').encode('utf-8')
        print('{} {}'.format(i,title))

def main():
    start=time()
    parse(url)
    end=time()
    print('Cost {} seconds'.format((end - start)))

if __name__ == '__main__':
    main()

查看评论

使用requests爬取豆瓣电影top250

今天使用requests获取豆瓣电影top250的内容,先说下思路 表设计 获取每一页的内容 获取当前页每一部电影对应的链接 获取所有页的url for i in range(10): ...
  • mockingbirds
  • mockingbirds
  • 2017年06月03日 18:51
  • 4191

python 爬虫 保存豆瓣TOP250电影海报及修改名称

1. spider代码:这里注意找title和star,以及pic时xpath不同。前两者是在info下,后者是在pic下。for循环中按item寻找,每次找到一个item(电影)的title、sta...
  • u011311418
  • u011311418
  • 2018年01月07日 17:25
  • 121

python爬取的豆瓣top250的一些信息

核心spider:(入门简单参考,进阶的以后会更新,不要照抄,xpath的脚本自己去核对一下,不一定还能用) # -*- coding: utf-8 -*- from scrapy.selecto...
  • wang1472jian1110
  • wang1472jian1110
  • 2015年12月17日 14:15
  • 602

爬取豆瓣Top250图书【Beautiful】

由于我有一个喜欢看书的室友,最近比较闹书荒,我觉得爬取一下豆瓣评分Top250的图书,看看他有没有想看的(并不是为了装那啥。。。 爬取目标 + 爬取豆瓣评分Top250的图书 + 获取每本图书的详...
  • Richie_ll
  • Richie_ll
  • 2017年03月03日 17:17
  • 1254

Python 采用Scrapy爬虫框架爬取豆瓣电影top250

scrapy 简介在此,默认已经安装好Scrapy,如果没有安装可以到scrapy 官网下载安装。 注意: 在安装Scrapy之前首先需要安装一下python第三方库:(安装方法并不在本文讲解范围...
  • dylanzr
  • dylanzr
  • 2016年06月26日 21:49
  • 5883

python爬取豆瓣图书Top250

python3.5 爬取豆瓣读书Top250并保存
  • github_37480618
  • github_37480618
  • 2017年03月19日 21:41
  • 375

Python爬虫入门 | 4 爬取豆瓣TOP250图书信息

先来看看页面长啥样的:https://book.douban.com/top250   我们将要爬取哪些信息:书名、链接、评分、一句话评价…… 1. 爬取单个信息我们先来尝试爬取书名,利用之前的套...
  • DataCastle
  • DataCastle
  • 2017年12月15日 14:15
  • 1086

利用python爬取豆瓣音乐TOP250

最近无所事事,在逼乎看到别人爬取了豆瓣音乐,发现挺适合我这菜鸡练练手 #对不起豆瓣,又是爬你。。 目标网站:https://music.douban.com/top250?start=0 首先正常浏览...
  • zzpdbk
  • zzpdbk
  • 2017年12月10日 01:39
  • 481

[Python/爬虫]利用xpath爬取豆瓣电影top250

今天学习了一下xpath 感觉功能非常的强大,但是如果不太懂前端的小伙伴们可能比较吃力,建议看一下html的一些语法结构,代码如下:#!/usr/bin/env python import re im...
  • yyy72999
  • yyy72999
  • 2017年07月17日 17:11
  • 605

python+beautifulsoup爬取豆瓣电影TOP250

import urllib.request from bs4 import BeautifulSoup import re # 豆瓣电影top250 def __getHtml(): data ...
  • javaexploreroooo
  • javaexploreroooo
  • 2016年10月19日 20:45
  • 2015
    个人资料
    持之以恒
    等级:
    访问量: 876
    积分: 104
    排名: 110万+
    文章存档