python爬取国家统计局数据并做简单的数据缺失值处理

本文链接：https://blog.csdn.net/jymxxds/article/details/110860401

准备工作：
需要先安装chrome浏览器

其次，下载chromedriver驱动，下载方式可点击这里，下载完毕放置的位置没有要求，只需要在下面的代码中将地址改成你的chromedriver驱动放置的位置就可以啦。
在这里插入图片描述

爬虫代码如下：

# -*- codeing = utf-8 -*-
# Datatime:2020/12/5 5:04
# Filename:text3 .py
# Toolby: PyCharm


import time
import ssl
import xlwt
from selenium import webdriver
from bs4 import BeautifulSoup
ssl._create_default_https_context = ssl._create_unverified_context

#爬取网页，得到数据
def getData():
    chrome_driver = "D:\Google\chromedriver_win32\chromedriver.exe"     #chromedriver驱动文件的位置

    browser = webdriver.ChromeOptions()
    browser.add_argument('user-agent=Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 87.0.4280.66 Safari / 537.36')
    browser.add_argument('--ignore-certificate-errors')

    ss = webdriver.Chrome(executable_path=chrome_driver,chrome_options=browser)
    ss.get('https://data.stats.gov.cn/easyquery.htm?cn=C01')

    time.sleep(30)                                   #睡眠3秒，等待页面加载

    ss.find_element_by_id('mySelect_sj').click()    #点击时间的下拉列表框
    time.sleep(2)                                   #睡眠3秒，等待页面加载

    ss.find_element_by_class_name('dtText').send_keys('1949-,last10')   #在时间框里输入时间：1949-,last10
    time.sleep(1)                                                       #睡眠1秒，等待页面加载

    ss.find_element_by_class_name('dtTextBtn').click()  #点击确定
    time.sleep