python爬取国家统计局数据并做简单的数据缺失值处理

准备工作:
需要先安装chrome浏览器

其次,下载chromedriver驱动,下载方式可点击这里,下载完毕放置的位置没有要求,只需要在下面的代码中将地址改成你的chromedriver驱动放置的位置就可以啦。
在这里插入图片描述

爬虫代码如下:

# -*- codeing = utf-8 -*-
# Datatime:2020/12/5 5:04
# Filename:text3 .py
# Toolby: PyCharm


import time
import ssl
import xlwt
from selenium import webdriver
from bs4 import BeautifulSoup
ssl._create_default_https_context = ssl._create_unverified_context

#爬取网页,得到数据
def getData():
    chrome_driver = "D:\Google\chromedriver_win32\chromedriver.exe"     #chromedriver驱动文件的位置

    browser = webdriver.ChromeOptions()
    browser.add_argument('user-agent=Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 87.0.4280.66 Safari / 537.36')
    browser.add_argument('--ignore-certificate-errors')

    ss = webdriver.Chrome(executable_path=chrome_driver,chrome_options=browser)
    ss.get('https://data.stats.gov.cn/easyquery.htm?cn=C01')

    time.sleep(30)                                   #睡眠3秒,等待页面加载

    ss.find_element_by_id('mySelect_sj').click()    #点击时间的下拉列表框
    time.sleep(2)                                   #睡眠3秒,等待页面加载

    ss.find_element_by_class_name('dtText').send_keys('1949-,last10')   #在时间框里输入时间:1949-,last10
    time.sleep(1)                                                       #睡眠1秒,等待页面加载

    ss.find_element_by_class_name('dtTextBtn').click()  #点击确定
    time.sleep
  • 5
    点赞
  • 42
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值