python之文本爬虫

最新推荐文章于 2024-03-25 13:54:42 发布

qq_33483515

最新推荐文章于 2024-03-25 13:54:42 发布

阅读量507

点赞数

分类专栏： python系列文章文章标签： python 源代码爬虫图片

本文链接：https://blog.csdn.net/qq_33483515/article/details/50388964

版权

python系列文章专栏收录该内容

6 篇文章 0 订阅

订阅专栏

## python之文本爬虫 ##
用python做可以读取到网页源代码（静态网页）的方法。
分析：
1，获取网页源代码，保存。
2，读取文件。
3，匹配要抓取的内容。
4，完成保存。
以抓取网页图片为例：

#-*-coding:uft8-*-
#导入所需库文件
import re
impore requests
#读取源代码文件
f=open（'文件名称','r')
html=f.read()
f.close()
#匹配图片地址（使用正则表达式）
pic=re.findall('img src="(.*?)",re.S)
i=0
for each in pic:
    try:
        pic1=requests.get(each)
        fp=open('pic\\'+str(i)+'.jpg','wb')
        fp.write(pic1.content)
        fp.close()
        i=i+1
    except:
        print"下载出错"

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_33483515

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python之文本爬虫

## python之文本爬虫 ## 用python做可以读取到网页源代码（静态网页）的方法。分析： 1，获取网页源代码，保存。 2，读取文件。 3，匹配要抓取的内容。 4，完成保存。以抓取网页图片为例：#-*-coding:uft8-*-#导入所需库文件import reimpore requests#读取源代码文件f=open（'文件名称','
复制链接

扫一扫