<div style="background:url('//cdnimg01.kurogame.com/M00/1A/80/ChpCl2EBM7iEDAu3AAAAAGIgNAU818.jpg') no-repeat; background-size: auto 100%;"/>
当用pyquery爬取图片时,有时候会遇到上面这样,没有直接说明长度宽度,而且url也不好直接拿出来。
这时可以用正则表达式re 的findall把上面用迭代器得到的url里 需要的字符串提取出来。
开始我是按下面提取的
imurl = re.findall(r"""<div style="background: url('(.*?)') no-repeat; background-size: auto 100%;"/>""", imurl)
print一下
不知道什么情况,然后发现我所需要的url在单引号里面,这样提取里面的信息就只需要r'\'(.*)\''修改如下
imurl = re.findall(r'\'(.*)\'', imurl)[0]
print一下,可以了