Python文本爬虫实战

最新推荐文章于 2023-05-12 16:30:03 发布

a631278993

最新推荐文章于 2023-05-12 16:30:03 发布

阅读量102

点赞数

文章标签：爬虫 python

原文链接：http://www.cnblogs.com/ygj0930/p/7019950.html

版权

转载请注明原文地址：http://www.cnblogs.com/ygj0930/p/7019950.html

一：流程

目标：爬取目标网页的图片

1：获取网页源码

2：用Python读取源码

3：使用正则表达式从网页源码提取图片地址

4：根据图片地址下载图片

二：实现

1：源码获取

文本爬虫，是在已有的文本内容中爬取需要的信息，这区别于网络爬虫。

由于被检索的内容是现成的，因此，文本爬虫又叫“半自动爬虫”。

在本例中，我们以昵图网首页为目标网址，因此，我们先到昵图网首页，右键—>查看源代码—>保存源码到txt文件。

2：编写代码

#coding:utf8
import re
import requests

#1：读取文本文件，存到一个变量中
f=open("src.txt","r+")
htmls=f.read()
f.close()

#2:使用正则表达式，从独取出来的文本内容中进行提取
img_url=re.findall('<img src="(.*?)"',htmls,re.S)

#3：遍历正则表达式的匹配结果，使用requests模块功能连接图片并通过文件写操作把图片保存下来
i=1;
for each in img_url:
    #连接到图片
    img=requests.get(each)
    #创建图片文件
    fp=open('img'+str(i)+'.jpg',"wb")
    #把链接到的图片内容写入文件
    fp.write(img.content)
    #关闭文件
    fp.close()
    i=i+1

转载于:https://www.cnblogs.com/ygj0930/p/7019950.html

a631278993

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python文本爬虫实战

转载请注明原文地址：http://www.cnblogs.com/ygj0930/p/7019950.html一：流程目标：爬取目标网页的图片1：获取网页源码2：用Python读取源码3：使用正则表达式从网页源码提取图片地址4：根据图片地址下载图片二：实现1：源码获取文本爬虫，是在已有的文本内容中爬取需要的信息，这区别于网络爬虫。由于...
复制链接

扫一扫