Python爬虫-爬取慕课网课程

Python爬取网络图片使用正则表达式解析Html格式的文件(其他更好的方法以后会继续更新)

获取慕课网课程图片

网站链接
http://www.imooc.com/search/?words=python
这里写图片描述
图1 网站页面

从网站上获取课程图片
首先查看页面html代码
这里写图片描述
图2 html代码

这里写图片描述
图3 html代码

可知图片的一个标签链接样式是
http://szimg.mukewang.com/5859ed790001b9da05400300-360-202.jpg
获取这个链接图片即可

Python代码

环境是python3.6 IDE是pycharm

import re                      #正则表达式模块
from urllib import request     #urllib的request模块可以非常方便地抓取URL内容
                                #也就是发送一个GET请求到指定的页面,然后返回HTTP的响应

req = request.urlopen('http://www.imooc.com/search/?words=python')
buf = req.read()
buf = buf.decode('utf-8')

listurl = re.findall(r'http:.+\.jpg', buf)  #从数据中查找http:开头 .jpg结尾的链接

i = 0                   #计数器
for url in listurl:
    f = open('E:/Temp/' + str(i) + '.jpg', 'wb')    #选择保存
    req_ = request.urlopen(url)                       #打开这个url(图片链接)
    buf_ = req_.read()              #读取数据到buf中
    f.write(buf_)                   #将数据写入文件
    i += 1
    f.close()

最后在文件目录下可以查看到图片
这里写图片描述

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值