Python实现简单的爬虫

宇宙无敌冰可乐

于 2021-10-19 20:14:33 发布

阅读量327

点赞数 1

文章标签： python 正则表达式爬虫

本文链接：https://blog.csdn.net/hjw789/article/details/120847647

版权

创建了getImg()函数，用于在获取的整个页面中筛选需要的图片连接。re模块主要包含了正则表达式：
re.compile() 可以把正则表达式编译成一个正则表达式对象.
re.findall() 方法读取html 中包含 imgre（正则表达式）的数据。
运行脚本将得到整个页面中包含图片的URL地址。

import re
import urllib.request
import chardet   #需要导入这个模块，检测编码格式
def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html

def getImg(html

最低0.47元/天解锁文章

宇宙无敌冰可乐

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python实现简单的爬虫

创建了getImg()函数，用于在获取的整个页面中筛选需要的图片连接。re模块主要包含了正则表达式：re.compile() 可以把正则表达式编译成一个正则表达式对象.re.findall() 方法读取html 中包含 imgre（正则表达式）的数据。运行脚本将得到整个页面中包含图片的URL地址。import reimport urllib.requestimport chardet #需要导入这个模块，检测编码格式def getHtml(url): page = urllib.r
复制链接

扫一扫