爬虫小案例 爬取百度贴吧杨幂图片 xpath 美丽汤

本文通过实例详细讲解如何运用XPath技术配合美丽汤库来爬取百度贴吧关于杨幂的图片,揭示网络爬虫在图片抓取方面的应用。
摘要由CSDN通过智能技术生成

xpath版本

import requests
from lxml import etree
import os
from hashlib import md5


def get_html(url, headers):
	html = requests.get(url, headers)
	return html.text


def parse_html(html):
	content = etree.HTML(html)
	href_list = content.xpath(
		'//li[contains(@class,"j_thread_list")]//div[contains(@class,"threadlist_title")]/a/@href'
	)
	return href_list


def parse_image(img_list):
	content = etree.HTML(img_list)
	src_list = content.xpath('//img[@class="BDE_Image"]/@src')
	return src_list


def download_image(url, headers):
	image_content = requests.get(url, headers).content
	if not os.path.exists("yangmi"):
		os.mkdir("yangmi")
	file = md5(str(image_content).encode('utf-8')).hexdigest()
	filename = "yangmi" + "//" + file + ".jpg"
	if not os.path.exists(filename):
		with 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值