空闲的时候随便找了一个网站练习一下爬虫,总结一下自己写爬虫遇到的知识点
-
实现的功能
- 抓取全站URL
- 获取CSS,JS, img等文件连接
- 获取文件名字
- 保存文件到本地 用到的模块
- urllib
- bs4
- re
- os
第一部分:抓取全站URL
先贴上代码
# 获取当前页面子网站子网站
def get_urls(url, baseurl, urls):
with request.urlopen(url) as f:
data = f.read().decode('utf-8')
link = bs(data).find_all('a')
for i in link:
suffix = i.get('href')
# 设置排除写入的子连接
if suffix == '#' or suffix == '#carousel-example-generic' or 'javascript:void(0)' in suffix:
continue
else:
# 构建urls
childurl = baseurl + suffix
if childurl not in urls:
urls.append(childurl)
# 获取整个网站URL
def getallUrl(url, baseurl, urls):
get_urls(url, baseurl, urls)
end = len(urls)
start =