基于Python的第一个爬虫项目

最新推荐文章于 2021-12-06 00:53:44 发布

陈文青-

最新推荐文章于 2021-12-06 00:53:44 发布

阅读量320

点赞数

分类专栏： C++ 爬虫 python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/Destiny_Forever/article/details/82285335

版权

C++ 同时被 3 个专栏收录

255 篇文章 0 订阅

订阅专栏

python

7 篇文章 0 订阅

订阅专栏

爬虫

5 篇文章 0 订阅

订阅专栏

本文内容是慕课网上的爬虫课程项目，从python百度百科开始，获取链接从整个互联网上进行爬取相关知识

url_manager.py

class UrlManager(object):
    """
    URL管理器：负责管理待抓取的URL和已抓取的URL，防止重复抓取和循环抓取
    """
    def __init__(self):
        """
        待爬取的new_urls，和爬取过的old_urls
        set()：创建不重复的元素集
        """
        self.new_urls = set()
        self.old_urls = set()

    def add_new_url(self, url):
        """添加一个新的url，要添加的url不能是重复的"""
        if url is None:
            return
        if url not in self.new_urls and url not in self.old_urls:
            self.new_urls.add(url)

    def add_new_urls(self, urls):
        """添加多个url"""
        if urls is None or len(urls) == 0:
            return
        for url in urls:
            self.add_new_url(url)

    def has_new_url(self):
        """判断当前URL管理器中是否还有待爬取的URL，返回一个bool值"""
        return len(self.new_urls) != 0

    def get_new_url(self):
        """
        获取一个新的待爬取的url
        new_urls里面pop()
        old_urls里面add()
        """
        new_url = self.new_urls.pop()
        self.old_urls.add(new_url)
        return new_url

html_parser.py

from bs4 import BeautifulSoup
import re
import urllib.parse


class HtmlParser(object):
    """
    网页解析器：从网页中提取有价值的数据
    """

    def _get_new_urls(self, page_url, soup):
        """从soup中获取新的url列表返回"""
        
        new_urls = set()    # 存储新的url列表

        # 根据正则表达式获取新的url
        # soup.find_all()  搜索结点
        # re.compile()     正则匹配，需要import re
        # <a target="_blank" href="/item/Guido%20van%20Rossum">Guido van Rossum</a>
        links = soup.find_all('a', href=re.compile(r'/item/'))  
        for link in links:

            # 百度百科的词条连接的href明显不是直接地址，所以需要一些方法得到它的地址
            # urllib.parse  解析模块
            # urllib.parse.urljoin  用于将基地址与一个相对地址形成一个绝对地址
            #       例如：urljoin("http://www.google.com/1/aaa.html","bbbb.html")   得到：'http://www.google.com/1/bbbb.html'
            
            new_url = link['href']
            new_full_url = urllib.parse.urljoin(page_url, new_url)     # urlib.parse 解析模块
            new_urls.add(new_full_url)
        return new_urls

    def _get_new_data(self, page_url, soup):

        """从soup中获取所需数据返回"""
        
        res_data = {}   # 创建字典存储有用的信息：新的url列表，和一些有用的数据

        # url
        res_data['url'] = page_url

        title_node = soup.find('dd', class_="lemmaWgt-lemmaTitle-title").find('h1')
        res_data['title'] = title_node.get_text()

        # lemma-summary
        summary_node = soup.find('div', class_="lemma-summary")
        res_data['summary'] = summary_node.get_text()

        return res_data

    def paser(self, page_url, html_cont):
        """ 从html_cont中解析数据： 新的url列表和所需数据"""
        if page_url is None or html_cont is None:
            return

        # BeautifulSoup的定义：
        # html_cont: 文档字符串
        # 'html.parser': HTML解析器
        # from_encoding: 文档的编码
        soup = BeautifulSoup(html_cont, 'html.parser', from_encoding='utf-8')
        # 获取新的url列表
        new_urls = self._get_new_urls(page_url, soup)
        # 获取所需数据
        new_data = self._get_new_data(page_url, soup)
        return new_urls, new_data

html_downloader

class HtmlOutputer(object):
    def __init__(self):
        self.datas = []

    def collect_data(self, data):
        if data is None:
            return
        self.datas.append(data)

    def output_html(self):
        fout = open('output.html', 'w', encoding="utf-8")

        fout.write("<html>")
        fout.write("<head><meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\"></head>")
        fout.write("<body>")
        fout.write("<table>")

        for data in self.datas:
            fout.write("<tr>")
            fout.write("<td>%s</td>" % data['url'])
            fout.write("<td>%s</td>" % data['title'])
            fout.write("<td>%s</td>" % data['summary'])
            fout.write("</tr>")

        fout.write("</table>")
        fout.write("</body>")
        fout.write("</html>")
        fout.close()

html_outputer.py

class HtmlOutputer(object):
    def __init__(self):
        self.datas = []

    def collect_data(self, data):
        if data is None:
            return
        self.datas.append(data)

    def output_html(self):
        fout = open('output.html', 'w', encoding="utf-8")

        fout.write("<html>")
        fout.write("<head><meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\"></head>")
        fout.write("<body>")
        fout.write("<table>")

        for data in self.datas:
            fout.write("<tr>")
            fout.write("<td>%s</td>" % data['url'])
            fout.write("<td>%s</td>" % data['title'])
            fout.write("<td>%s</td>" % data['summary'])
            fout.write("</tr>")

        fout.write("</table>")
        fout.write("</body>")
        fout.write("</html>")
        fout.close()

spider_main.py

import url_manager
import html_downloader
import html_parser
import html_outputer


class SpiderMain(object):
    """爬虫调度端"""
    def __init__(self):
        """初始化"""
        self.urls = url_manager.UrlManager()        # URL管理器
        self.downloader = html_downloader.HtmlDownloader()  # 网页下载器 
        self.parser = html_parser.HtmlParser()      # 网页解析器
        self.outputer = html_outputer.HtmlOutputer()   #  输出数据  

    def craw(self, root_url):
        """ 调度主程序 """
        count = 1      # 计数
        self.urls.add_new_url(root_url)     # 添加第一个链接到 urls中

        # urls 中有待爬取的链接的时候就继续循环
        # 首先从 urls 中取一个新的链接
        # 使用网页下载器把该链接指向网页的信息下载到 html_cont 中
        # 然后使用网页解析器，得到我们想要的 数据 new_data 和 链接 new_urls
        # 把获取到的多个新的链接通过URL管理器添加到new_urls里面
        # 把其中我们需要的数据存到 outputer 里       
        while self.urls.has_new_url():

            # 设置错误抓取，防止某些链接不能访问的情况
            try:
                new_url = self.urls.get_new_url()
                print("craw %d : %s" %(count, new_url))
                html_cont = self.downloader.download(new_url)
                new_urls, new_data = self.parser.paser(new_url, html_cont)
                self.urls.add_new_urls(new_urls)
                self.outputer.collect_data(new_data)

                if count == 10:
                    break
                count = count + 1
            except:
                print('craw failed')
        # 最后把所有的数据在网页上进行输出
        self.outputer.output_html()

# 由于Python没有程序入口一说，所以：
# if __name__ == '__main__':  意思就是如果该模块被直接运行，则该语句就是程序入口，
# 如果该模块作为模块被导入，则该语句不被运行

if __name__ == '__main__':
    root_url = "https://baike.baidu.com/item/Python"
    obj_spider = SpiderMain()
    obj_spider.craw(root_url)