Python爬取美女图片信息并保存(无图系列)
爬取目标地址:
美女图片:https://www.27270.com/ent/meinvtupian
本案例使用的是python的pyquery解析库,该库相对于Xpath、BeautifulSoup在使用上更简单方便。案例中保存的文件存放在python运行目录下面,本人QQ是3574360458,大家可以一起交流学习,我是零基础学python,期待与大家一起进步。
from pyquery import PyQuery as pq
import requests
import time
pic_num = 1
def get_page(url):
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
#'Referer':'http://www.27270.com'
}
html = requests.get(url, headers=header)
return html.content
def get_analysis(html):
doc = pq(html)
# 我们需要的信息在class="MeinvTuPianBox"这个class所在的块里面
lis = doc('.MeinvTuPianBox li').items()
return lis
def write_file(lis):
i = 1
num = 1
global pic_num
for li in lis:
# pyquery.pyquery.PyQuery类型的数据,可以使用pyquery的所有方法
# 提取图片信息
Tu = {
'title': li('a').attr.title,
'url': li('a').attr.href,
'pic_url': li('img').attr.src
}
pic_str = '第' + str(pic_num) + '个图片信息:\n' + Tu['title'] + ':' + Tu['url'] + '\n' + '图片地址:' + Tu['pic_url'] + '\n\n'
print(pic_str)
i += 1
num += 1
pic_num += 1
# print(type(Tu))
file = open('TUTu.txt', 'a')
file.write(str(pic_str))
file.close()
time.sleep(1)
file = open('TUTu.txt', 'a')
file.write('-----------------------------\n\n')
file.close()
def main(offset):
print('运行了%d次' % offset)
url = 'https://www.27270.com/ent/meinvtupian/list_11_' + str(offset) + '.html'
print(url)
html = get_page(url)
lis = get_analysis(html)
write_file(lis)
if __name__ == '__main__':
for i in range(11):
main(i)
time.sleep(2)