python 正则表达式爬图片_利用python正则表达式爬取图片

最新推荐文章于 2023-07-25 16:48:40 发布

要改啥昵称好呢

最新推荐文章于 2023-07-25 16:48:40 发布

阅读量391

点赞数

文章标签： python 正则表达式爬图片

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42305264/article/details/113642822

版权

.*?(.*?)'

+ '.*?class="IcoList">(.*?).*?class="IcoTime">(.*?)', re.S)

items = re.findall(pattern, html) # 利用re库的compile方法构造正则表达式，findall方法获取items

for item in items:

yield {

'名称': item[2],

'壁纸': item[1],

'网址': item[0],

'发布日期': item[4],

'查看次数': item[3][3:]

} # yield生成器，被调用时才赋值

content = get_image_content(item[1])

download_image(content)

def save_to_file(filename,file_type,text): # 保存至本地

with open('{}{}{}'.format(path_txt, filename,file_type), 'a', encoding='utf-8', )as wf: # 以utf-8的编码方式追加到文件

wf.write(json.dumps(text, ensure_ascii=False) + '\n') # 解码相关json格式

print(text,'写入到本地成功！')

wf.close()

def save_to_mongo(text): # 存储到MongoDB

if db[mongo_table].insert(text):

print(text,'写入Mongo成功！')

return True

return False

def main(filename, page):

url = 'http://www.***/bizhitupian/meinvbizhi/{}.htm'.format(page)

html = get_responses(url)

items = get_url_items(html)

for item in items:

save_to_file(filename,file_type, item)

save_to_mongo(item)

if __name__ == '__main__':

for page in range(start_page, end_page + 1):

main(file, page)

time.sleep(15)#等待15秒，防止被识别

要改啥昵称好呢

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 正则表达式爬图片_利用python正则表达式爬取图片

.*?(.*?)'+ '.*?class="IcoList">(.*?).*?class="IcoTime">(.*?)', re.S)items = re.findall(pattern, html) # 利用re库的compile方法构造正则表达式，findall方法获取itemsfor item in items:yield {'名称': item[2],'壁纸': item[...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。