Python最简单的爬虫脚本

本文介绍了一种特殊情况下制作Python爬虫的简单方法,无需使用正则表达式、lxml或BeautifulSoup。重点在于理解网络数据的异步加载(Ajax),观察并识别JSON类型的响应数据,以及如何进行文件操作,如写入文本和流媒体文件。
摘要由CSDN通过智能技术生成

正则表达式、lxml、BeautifulSoup统统用不上的状况也是存在的,如果响应类型是json的话。

试着顺下面代码的思路对照下豆瓣电影的 request——response互动

  • 要点一.熟悉网络数据的异步加载,即Ajax加载方式。概念不重要,有感性认识即可
  • 要点二.观察一下response的是什么数据类型,怎么观察?嗯,看浏览器的Response栏内容,无非html、json、其他这三种
  • 要点三.文件操作,写入文本、写入照片、流媒体文件等
"""
topic:豆瓣是异步加载的,更神奇的是response的内容是json,我试着抓取
author:小灵子
date:2019-6-4
"""
import requests
import time

def build_url():
    for page in range(31): #查询三十页即可
        url = 'http://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=' + str(page) + '&limit=20'
        yield url

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',
           'X-
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值