爬虫|巨潮资讯网上市公司年报爬取

最新推荐文章于 2024-07-09 21:05:07 发布

Jianming__Liu

最新推荐文章于 2024-07-09 21:05:07 发布

阅读量7.7k

点赞数 7

本文链接：https://blog.csdn.net/Jianming__Liu/article/details/112785203

版权

本文介绍如何使用爬虫技术从巨潮资讯网上抓取上市公司的年度报告信息，详细阐述了爬取过程及可能遇到的问题和解决方案。

摘要由CSDN通过智能技术生成

爬虫|巨潮资讯网上市公司年报爬取

import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
import requests
import os
import random
from PyPDF2 import PdfFileReader

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--start-maximized')
browser = webdriver.Chrome(options=chrome_options)

#os.makedirs('D:\\公司年报')  #在D盘创建文件夹，若重复运行，注释此行

#解析网址
def get_html_content(url):
    header = {
   
        "User-Agent":"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Mobile Safari/537.36"
        }
    r = requests.get(url,headers = header)
    if r.status_code == 200:
        r.encoding = 'utf-8'
        #print(r.content)
        return r.content
    else:
        return None
  
#保存pdf   
def report_save(url,pdf_name):
    report = get_html_content(url)
    path = "D:\

最低0.47元/天解锁文章

Jianming__Liu

关注

7
点赞
踩
55

收藏

觉得还不错? 一键收藏
0
评论
爬虫|巨潮资讯网上市公司年报爬取

爬虫|巨潮资讯网上市公司年报爬取import pandas as pdfrom selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport timeimport requestsimport osimport randomfrom PyPDF2 import PdfFileReaderchrome_options = webdriver.ChromeOptions()chrome_opti
复制链接

扫一扫