Python文本爬虫实战

转载请注明原文地址:http://www.cnblogs.com/ygj0930/p/7019950.html 

 

一:流程

目标:爬取目标网页的图片

1:获取网页源码

2:用Python读取源码

3:使用正则表达式从网页源码提取图片地址

4:根据图片地址下载图片

 

二:实现

1:源码获取

文本爬虫,是在已有的文本内容中爬取需要的信息,这区别于网络爬虫。

由于被检索的内容是现成的,因此,文本爬虫又叫“半自动爬虫”。

在本例中,我们以昵图网首页为目标网址,因此,我们先到昵图网首页,右键—>查看源代码—>保存源码到txt文件。

2:编写代码

#coding:utf8
import re
import requests

#1:读取文本文件,存到一个变量中
f=open("src.txt","r+")
htmls=f.read()
f.close()

#2:使用正则表达式,从独取出来的文本内容中进行提取
img_url=re.findall('<img src="(.*?)"',htmls,re.S)

#3:遍历正则表达式的匹配结果,使用requests模块功能连接图片并通过文件写操作把图片保存下来
i=1;
for each in img_url:
    #连接到图片
    img=requests.get(each)
    #创建图片文件
    fp=open('img'+str(i)+'.jpg',"wb")
    #把链接到的图片内容写入文件
    fp.write(img.content)
    #关闭文件
    fp.close()
    i=i+1

 

转载于:https://www.cnblogs.com/ygj0930/p/7019950.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值