#coding=utf-8
import requests
from bs4 import BeautifulSoup
import os
import sys
reload(sys)
sys.setdefaultencoding('utf8')
def getHtmlurl(url): #获取网址
try:
r=requests.get(url)
r.raise_for_status()
r.encoding=r.apparent_encoding
return r.text
except:
return ""
def getpic(html): #获取图片地址并下载
soup =BeautifulSoup(html,'html.parser')
all_tag=soup.find('ul',class_='all-img-list cf').find_all('h4')
for tag in all_tag:
src=tag.string
src.decode('utf-8')
print ("小说名称:" + src)
def main():
url='https://www.qidian.com/all'
html=(getHtmlurl(url))
getpic(html)
main()
基于python2.7+BeautifulSoup4写的,程序目的是抓取起点中文网所有小说列表中的第一页中的所有小说名称。
该爬虫的重点是网页结构的分析。
刚起步,见笑了!
参考:
一个咸鱼的Python爬虫之路(三):爬取网页图片 - FRANKLV - 博客园
https://www.cnblogs.com/franklv/p/6829387.html