前言:
研究爬虫2个月,查看了许多方法,无一不涉及正则表达式,导致初学者往往
一头雾水,现将全程利用字符串find函数查找匹配爬取豆瓣网 TOP250 电影图片
的方法敬上,欢迎交流学习。
----xyislove
import urllib.request
import os
# 不用正则表达式 爬取豆瓣网 TOP250 电影图片
# https://movie.douban.com/top250?start=0&filter=
# top250?start=0&filter= 存在规律的地方 等差 差为25 定义i变量 迭代或循环 实现
# <img width="100" alt="肖申克的救赎" src="https://img2.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg" class="">
# 此为图片链接 src=" xxxxxxxxxxxxx .jpg 首尾可以查找的线索
#封装请求函数
def url_open(url):
head={}
#根据自己的主机定义 User-Agent参数 伪装浏览器
head['User-Agent']='xxxxxxxxxxxxxxxxxxx'
req=urllib.request.Request(url,headers=head)
response&#