本文内容是慕课网上的爬虫课程项目 ,从python百度百科开始,获取链接从整个互联网上进行爬取相关知识
url_manager.py
class UrlManager(object):
"""
URL管理器:负责管理待抓取的URL和已抓取的URL,防止重复抓取和循环抓取
"""
def __init__(self):
"""
待爬取的new_urls,和爬取过的old_urls
set():创建不重复的元素集
"""
self.new_urls = set()
self.old_urls = set()
def add_new_url(self, url):
"""添加一个新的url,要添加的url不能是重复的"""
if url is None:
return
if url not in self.new_urls and url not in self.old_urls:
self.new_urls.add(url)
def add_new_urls(self, urls):
"""添加多个url"""
if urls is None or len(urls) == 0:
return
for url in urls:
self.add_new_url(url)
def has_new_url(self):
"""判断当前URL管理器中是否还有待爬取的URL,返回一个bool值"""
return len(self.new_urls) != 0
def get_new_url(self):
"""
获取一个新的待爬取的url
new_urls里面pop()
old_urls里面add()
"""
new_url = self.new_urls.pop()
self.old_urls.add(new_url)
return new_url
html_parser.py
from bs4 import BeautifulSoup
import re
import urllib.parse
class HtmlParser(object):
"""
网页解析器:从网页中提取有价值的数据
"""
def _get_new_urls(self, page_url, soup):
"""从soup中获取新的url列表返回"""
new_urls = set() # 存储新的url列表
# 根据正则表达式获取新的url
# soup.find_all() 搜索结点
# re.compile() 正则匹配,需要import re
# <a target="_blank" href="/item/Guido%20van%20Rossum">Guido van Rossum</a>
links = soup.find_all('a', href=re.compile(r'/item/'))
for link in links:
# 百度百科的词条连接的href明显不是直接地址,所以需要一些方法得到它的地址
# urllib.parse 解析模块
# urllib.parse.urljoin 用于将基地址与一个相对地址形成一个绝对地址
# 例如:urljoin("http://www.google.com/1/aaa.html","bbbb.html") 得到:'http://www.google.com/1/bbbb.html'
new_url = link['href']
new_full_url = urllib.parse.urljoin(page_url, new_url) # urlib.parse 解析模块
new_urls.add(new_full_url)
return new_urls
def _get_new_data(self, page_url, soup):
"""从soup中获取所需数据返回"""
res_data = {} # 创建字典存储有用的信息:新的url列表,和一些有用的数据
# url
res_data['url'] = page_url
title_node = soup.find('dd', class_="lemmaWgt-lemmaTitle-title").find('h1')
res_data['title'] = title_node.get_text()
# lemma-summary
summary_node = soup.find('div', class_="lemma-summary")
res_data['summary'] = summary_node.get_text()
return res_data
def paser(self, page_url, html_cont):
""" 从html_cont中解析数据: 新的url列表和所需数据"""
if page_url is None or html_cont is None:
return
# BeautifulSoup的定义:
# html_cont: 文档字符串
# 'html.parser': HTML解析器
# from_encoding: 文档的编码
soup = BeautifulSoup(html_cont, 'html.parser', from_encoding='utf-8')
# 获取新的url列表
new_urls = self._get_new_urls(page_url, soup)
# 获取所需数据
new_data = self._get_new_data(page_url, soup)
return new_urls, new_data
html_downloader
class HtmlOutputer(object):
def __init__(self):
self.datas = []
def collect_data(self, data):
if data is None:
return
self.datas.append(data)
def output_html(self):
fout = open('output.html', 'w', encoding="utf-8")
fout.write("<html>")
fout.write("<head><meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\"></head>")
fout.write("<body>")
fout.write("<table>")
for data in self.datas:
fout.write("<tr>")
fout.write("<td>%s</td>" % data['url'])
fout.write("<td>%s</td>" % data['title'])
fout.write("<td>%s</td>" % data['summary'])
fout.write("</tr>")
fout.write("</table>")
fout.write("</body>")
fout.write("</html>")
fout.close()
html_outputer.py
class HtmlOutputer(object):
def __init__(self):
self.datas = []
def collect_data(self, data):
if data is None:
return
self.datas.append(data)
def output_html(self):
fout = open('output.html', 'w', encoding="utf-8")
fout.write("<html>")
fout.write("<head><meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\"></head>")
fout.write("<body>")
fout.write("<table>")
for data in self.datas:
fout.write("<tr>")
fout.write("<td>%s</td>" % data['url'])
fout.write("<td>%s</td>" % data['title'])
fout.write("<td>%s</td>" % data['summary'])
fout.write("</tr>")
fout.write("</table>")
fout.write("</body>")
fout.write("</html>")
fout.close()
spider_main.py
import url_manager
import html_downloader
import html_parser
import html_outputer
class SpiderMain(object):
"""爬虫调度端"""
def __init__(self):
"""初始化"""
self.urls = url_manager.UrlManager() # URL管理器
self.downloader = html_downloader.HtmlDownloader() # 网页下载器
self.parser = html_parser.HtmlParser() # 网页解析器
self.outputer = html_outputer.HtmlOutputer() # 输出数据
def craw(self, root_url):
""" 调度主程序 """
count = 1 # 计数
self.urls.add_new_url(root_url) # 添加第一个链接到 urls中
# urls 中有待爬取的链接的时候就继续循环
# 首先从 urls 中取一个新的链接
# 使用网页下载器把该链接指向网页的信息下载到 html_cont 中
# 然后使用网页解析器,得到我们想要的 数据 new_data 和 链接 new_urls
# 把获取到的多个新的链接通过URL管理器添加到new_urls里面
# 把其中我们需要的数据存到 outputer 里
while self.urls.has_new_url():
# 设置错误抓取,防止某些链接不能访问的情况
try:
new_url = self.urls.get_new_url()
print("craw %d : %s" %(count, new_url))
html_cont = self.downloader.download(new_url)
new_urls, new_data = self.parser.paser(new_url, html_cont)
self.urls.add_new_urls(new_urls)
self.outputer.collect_data(new_data)
if count == 10:
break
count = count + 1
except:
print('craw failed')
# 最后把所有的数据在网页上进行输出
self.outputer.output_html()
# 由于Python没有程序入口一说,所以:
# if __name__ == '__main__': 意思就是如果该模块被直接运行,则该语句就是程序入口,
# 如果该模块作为模块被导入,则该语句不被运行
if __name__ == '__main__':
root_url = "https://baike.baidu.com/item/Python"
obj_spider = SpiderMain()
obj_spider.craw(root_url)