网站table标签下表格数据的爬取

最新推荐文章于 2024-06-24 12:33:01 发布

青果HA

最新推荐文章于 2024-06-24 12:33:01 发布

阅读量4.6k

点赞数 4

分类专栏：爬虫文章标签：网站table标签下表格数据的爬取

本文链接：https://blog.csdn.net/Strive_0902/article/details/89383040

版权

爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

要求：

爬取网站：http://www.cbrc.gov.cn/chinese/home/docViewPage/110009&current=1中的所有page_url里面的信息。

具体信息有以下四类：图片格式的png 、附件包括pdf或xls 、网页表格（表格有两种），下面是四种实例网站

1）附件 http://www.cbrc.gov.cn/chinese/home/docView/3166B102A1C540D3B91F1CF40A88A091.html

2）表格1 http://www.cbrc.gov.cn/chinese/home/docView/201005120F33F2E00CDDDC79FFC70C1782E32B00.html

3）表格2 http://www.cbrc.gov.cn/chinese/home/docView/20110513802A974AF04EC97BFFECB584A566A800.html

4）png http://www.cbrc.gov.cn/chinese/home/docView/7C19F626EAC74658A5163952034C06D0.html

图片和附加就没有什么可说的了，和前几次爬取的方法一样，唯一不同的是这次的save函数，需要加头部信息，否则就会返回403。

所以下面主要说的是网页表格的爬取

表格分析：

表格分为两类：

1）html页面存在导出按钮的，可以直接下载

2）html页面不存在导出按钮的，需要在响应得到的html页面人为的添加几行代码

1） 在table里面加 id='detailtb'，这个id的作用是点击的位置指引

2） 在body里面加 '<input type="button" class="btn" onclick="exportExcel(\'detailtb\');" value="daochuEXCEL" id=\'export\'/></body>'，这句的作用就是添加导出按钮

3） 在整个页面后面添加一段js代码，具体为：


js = r'''<script>
    var idTmr;
    function getExplorer() {
      var explorer = window.navigator.userAgent ;
      //ie
      if (explorer.indexOf("MSIE") >= 0) {
        return 'ie';
      }
      //firefox
      else if (explorer.indexOf("Firefox") >= 0) {
        return 'Firefox';
      }
      //Chrome
      else if(explorer.indexOf("Chrome") >= 0){
        return 'Chrome';
      }
      //Opera
      else if(explorer.indexOf("Opera") >= 0){
        return 'Opera';
      }
      //Safari
      else if(explorer.indexOf("Safari") >= 0){
        return 'Safari';
      }
    }
    function exportExcel(tableid) {
      if(getExplorer()=='ie')
      {
        var curTbl = document.getElementById(tableid);
        var oXL = new ActiveXObject("Excel.Application");
        var oWB = oXL.Workbooks.Add();
        var xlsheet = oWB.Worksheets(1);
        var sel = document.body.createTextRange();
        sel.moveToElementText(curTbl);
        sel.select();
        sel.execCommand("Copy");
        xlsheet.Paste();
        oXL.Visible = true;
        try {
          var fname = oXL.Application.GetSaveAsFilename("Excel.xls", "Excel Spreadsheets (*.xls), *.xls");
        } catch (e) {
          print("Nested catch caught " + e);
        } finally {
          oWB.SaveAs(fname);
          oWB.Close(savechanges = false);
          oXL.Quit();
          oXL = null;
          idTmr = window.setInterval("Cleanup();", 1);
        }
      }
      else
      {
        tableToExcel(tableid)
      }
    }
    function Cleanup() {
      window.clearInterval(idTmr);
      CollectGarbage();
    }
    var tableToExcel = (function() {
      var uri = 'data:application/vnd.ms-excel;base64,',
          template = '<html><head><meta charset="UTF-8"></head><body><table>{table}</table></body></html>',
          base64 = function(s) { return window.btoa(unescape(encodeURIComponent(s))) },
          format = function(s, c) {
            return s.replace(/{(\w+)}/g,
                function(m, p) { return c[p]; }) }
      return function(table, name) {
        if (!table.nodeType)
        table = document.getElementById(table)
        var ctx = {worksheet: name || 'Worksheet', table: table.innerHTML}

        //可行
         var a = document.createElement("a");
         a.download = ''' + '\"' + name + ".xls" + '\"' + r''';
         a.href = uri + base64(format(template, ctx))
         a.click();
      }
    })()

</script>'''

思路：

无导出按钮的表格爬取思路是：

首先请求到网页的html信息，并将其保存到本地，然后在该文件中加如上述三个部分，得到新的html文件，然后请求该文件就可以得到带有导出按钮的表格页面。最后将其保存下来。

前面是没有导出按钮的图；后面带有导出按钮的图

图1 没有导出按钮的图

图2 带有导出按钮的图

实现代码为：

# -*- coding: utf-8 -*-
import traceback
import os
import logging
import time
import os
import json
import requests
import datetime
from lxml import etree
import os
import re

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.alert import Alert
import time
import json
from lxml import etree

def parse_url(final_url,name):
    # 得到网页中的所有数据
    ua = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"
    # Base_url = "http://www.cbrc.gov.cn/chinese/home/docViewPage/110009.html"
    Cookie = "__jsluid=a0ff288cfece0ec1cb5e22c4a24a6675; __jsl_clearance=1555571859.427|0|xIYeAeXRX%2BFS334V1evcRQStJdA%3D"
    Host = "www.cbrc.gov.cn"
    req = requests.get(final_url, headers={'User-agent': ua, 'Cookie': Cookie, 'Host': Host})
    # text = input_button(req.text)
    # 处理 id input
    a = req.text
    # mytree = etree.HTML(a)
    # file_name = mytree.xpath("//p[@class='MsoNormal']/b/span[1]/text()")[0]
    if '<table class=MsoNormalTable' in a:
        b = a.replace('<table class=MsoNormalTable', "<table class=MsoNormalTable id='detailtb'")
        page_html = b.replace('</body>','<input type="button" class="btn" onclick="exportExcel(\'detailtb\');" value="daochuEXCEL" id=\'export\'/></body>')
    elif ' <table style="WIDTH:' in a:
        b = a.replace('<table style="WIDTH:', '<table id="detailtb" style="WIDTH: ')
        page_html = b.replace('</body>',
                              '<input type="button" class="btn" onclick="exportExcel(\'detailtb\');" value="daochuEXCEL" id=\'export\'/></body>')
        # 生成html文件
        html_path = name + ".html"
        if not os.path.exists(html_path):
            with open(html_path, "w", encoding="gbk") as fff:
                fff.write(page_html)

                js = r'''<script>
                    var idTmr;
                    function getExplorer() {
                      var explorer = window.navigator.userAgent ;
                      //ie
                      if (explorer.indexOf("MSIE") >= 0) {
                        return 'ie';
                      }
                      //firefox
                      else if (explorer.indexOf("Firefox") >= 0) {
                        return 'Firefox';
                      }
                      //Chrome
                      else if(explorer.indexOf("Chrome") >= 0){
                        return 'Chrome';
                      }
                      //Opera
                      else if(explorer.indexOf("Opera") >= 0){
                        return 'Opera';
                      }
                      //Safari
                      else if(explorer.indexOf("Safari") >= 0){
                        return 'Safari';
                      }
                    }
                    function exportExcel(tableid) {
                      if(getExplorer()=='ie')
                      {
                        var curTbl = document.getElementById(tableid);
                        var oXL = new ActiveXObject("Excel.Application");
                        var oWB = oXL.Workbooks.Add();
                        var xlsheet = oWB.Worksheets(1);
                        var sel = document.body.createTextRange();
                        sel.moveToElementText(curTbl);
                        sel.select();
                        sel.execCommand("Copy");
                        xlsheet.Paste();
                        oXL.Visible = true;
                        try {
                          var fname = oXL.Application.GetSaveAsFilename("Excel.xls", "Excel Spreadsheets (*.xls), *.xls");
                        } catch (e) {
                          print("Nested catch caught " + e);
                        } finally {
                          oWB.SaveAs(fname);
                          oWB.Close(savechanges = false);
                          oXL.Quit();
                          oXL = null;
                          idTmr = window.setInterval("Cleanup();", 1);
                        }
                      }
                      else
                      {
                        tableToExcel(tableid)
                      }
                    }
                    function Cleanup() {
                      window.clearInterval(idTmr);
                      CollectGarbage();
                    }
                    var tableToExcel = (function() {
                      var uri = 'data:application/vnd.ms-excel;base64,',
                          template = '<html><head><meta charset="UTF-8"></head><body><table>{table}</table></body></html>',
                          base64 = function(s) { return window.btoa(unescape(encodeURIComponent(s))) },
                          format = function(s, c) {
                            return s.replace(/{(\w+)}/g,
                                function(m, p) { return c[p]; }) }
                      return function(table, name) {
                        if (!table.nodeType)
                        table = document.getElementById(table)
                        var ctx = {worksheet: name || 'Worksheet', table: table.innerHTML}
    
                        //可行
                         var a = document.createElement("a");
                         a.download = '''+ '\"'+ name +".xls" + '\"' + r''';
                         a.href = uri + base64(format(template, ctx))
                         a.click();
                      }
                    })()
    
                </script>'''


                fff.write(js)
                time.sleep(3)


        # selnium 调用


        filePath = os.path.dirname(os.path.abspath(__file__)) + "\\" +  html_path
        print(filePath)

        # file:///D:/pycharmProject/leetcode/work/%E4%B8%AD%E6%B6%88%E5%8D%8F/1.html

        # file://D:/pycharmProject/leetcode/work/中消协北京中之光会计师事务所有限责任公司.html

        filePath = "file:///" + filePath.replace("\\", "/")
        print(filePath)



        # from selenium.webdriver.chrome.options import Options
        # chrome_options = Options()
        # chrome_options.add_argument('--headless')
        # browser = webdriver.Chrome(chrome_options=chrome_options)

        # r'D:\pycharmProject\leetcode\work\中消协\excel\'
        options = webdriver.ChromeOptions()
        #options.add_argument('--headless')  # 不能跑无头模式
        prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory': 'E:\\excel'}
        options.add_experimental_option('prefs', prefs)
        # options.add_argument('--headless')
        browser = webdriver.Chrome(chrome_options=options)

        # 无头模式下强行使用下载功能
        # browser.command_executor._commands["send_command"] = ("POST", '/session/$sessionId/chromium/send_command')
        # params = {'cmd': 'Page.setDownloadBehavior', 'params': {'behavior': 'allow', 'downloadPath': "D:\\excel"}}
        # browser.execute("send_command", params)


        # browser = webdriver.Chrome()
        browser.implicitly_wait(3)
        browser.maximize_window()
        wait = WebDriverWait(browser, 3)

        # file:///D:/pycharmProject/leetcode/work/中消协北京中之光会计师事务所有限责任公司.html
        try:
            browser.get(filePath)
            time.sleep(3)

            # 点击导出
            wait.until(EC.presence_of_element_located((By.XPATH, "//input[@id='export']"))).click()
            time.sleep(2)

            # 弹出框

            # 点击确定

            # driver.findElement(By.id("updateButton")).click();
            # alert = browser.switch_to.alert
            # alert.accept()
            # print(alert.text)
            time.sleep(6)
            print(time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())))
        except:
            print("error")
            time.sleep(4)
        finally:
            browser.quit()

# def parse_png_xls(final_url,name):
#     dd

ua = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"
Base_url = "http://www.cbrc.gov.cn/chinese/home/docViewPage/110009&current="
Cookie="__jsluid=a0ff288cfece0ec1cb5e22c4a24a6675; __jsl_clearance=1555566993.764|0|ZMSMkj5pl7HUTHHz7u%2F6c%2FuFEVQ%3D"
Host="www.cbrc.gov.cn"
for i in range(1,4):
    url_list = Base_url + str(i)
    req = requests.get(url_list, headers={'User-agent': ua,'Cookie':Cookie,'Host':Host,'Upgrade-Insecure-Requests': '1'})
    req.encoding = "utf-8"
    # print(req.text)
    mytree = etree.HTML(req.text)
    pdf_url = mytree.xpath('//table[@id="testUI"]//tr/td[not(contains(@colspan,"3"))]/a/@href')
    file_name = mytree.xpath('//table[@id="testUI"]//tr/td[not(contains(@colspan,"3"))]/a/@title')
    for i in range(len(pdf_url)):
        page_url = "http://www.cbrc.gov.cn" + pdf_url[i]
        print(page_url)
        #下面这行是爬取网页表格的函数
        # parse_url(page_url, file_name[i])
        #下面是爬取包含附件和图片的函数

实现结果：

把类似于这样的网页表格

http://www.cbrc.gov.cn/chinese/home/docView/20110513802A974AF04EC97BFFECB584A566A800.html