python爬取网站数据，作为后端数据

+++.

已于 2023-11-15 14:55:01 修改

阅读量962

点赞数

分类专栏： server_java python 文章标签： python 开发语言

于 2023-11-15 12:55:46 首次发布

本文链接：https://blog.csdn.net/qq_45179361/article/details/134417493

版权

本文详细介绍了如何使用Python的urllib和selenium库抓取动态加载的网站数据，包括通过模拟浏览器执行JavaScript获取完整页面，以及通过API请求和XPath解析获取网页结构中的数据，并将数据存储到MySQL数据库。最后展示了如何启动后端服务器查询数据。

摘要由CSDN通过智能技术生成

一. 内容简介

python爬取网站数据，作为后端数据

二. 软件环境

2.1vsCode

2.2Anaconda

version: conda 22.9.0

2.3代码

链接：

三.主要流程

3.1 通过urllib请求网站

里面用的所有的包

! pip install lxml
! pip install selenium
! pip install pyautogui

通过urllib请求网站,需要注意一个问题，需要js加载的他都会没有，
使用 urllib 或 requests 库通常无法获取完整的页面内容，因为这些库只会获取页面的初始 HTML，而不会执行 JavaScript。

import urllib.request
from lxml import etree
import json
from selenium.webdriver.common.by import By
from selenium import webdriver
import random 
import time
import pyautogui
from datetime import datetime

def urllibRequest(url):
    headers = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'
    }
    request = urllib.request.Request(url=url, headers=headers)
    response = urllib.request.urlopen(request)

    content = response.read().decode('UTF-8')
    return content

url = "https://cxcy.upln.cn/"
print(url)
content = urllibRequest(url)
print(content)

最原始的网页，什么也没有，部分网页是这样的，没办法通过urllib 或 requests来获取完整的结构。
在这里插入图片描述

3.2 通过selenium请求网站

这个是通过驱动调用浏览器去进行访问，Selenium 可以模拟真实浏览器的行为，包括执行 JavaScript 代码，从而获取完整的页面内容。代码只需要给定链接，谷歌浏览器的exe位置，和网页加载时间就可以了，不需要下载谷歌浏览器驱动。

import urllib.request
from lxml import etree
import json
from selenium.webdriver.common.by import By
from selenium import webdriver
import random 
import time
import pyautogui
from datetime import datetime

def seleniumRequest(url,chrome_path,waitTime): 
        options = webdriver.ChromeOptions()
        options.add_experimental_option('excludeSwitches', ['enable-automation'])
        options.add_experimental_option(