01 GDP历史记录抓取处理并入库案例

本文介绍了一个使用Python进行GDP历史数据抓取、处理及存储到MySQL数据库的案例。首先,项目描述了整个操作流程;接着,详细展示了代码实现,包括设置headers和数据库配置;最后,作者进行了总结,提倡利用阿里云RDS和可视化工具如Navicat,强调不应过度投入在工具选择上,而应关注技术本身的发展。
摘要由CSDN通过智能技术生成

01 项目描述

1. 项目需求
    1.1 步骤
        1.1.1 抓取GDP历史数据
        1.1.2 将抓取的数据通过Pandas这一数据处理工具进行数据清洗
        1.1.3 将清洗好的数据存放如mysql数据库

2. 使用工具
   Python + Pandas + Xpath

02 代码实现

import requests
import time
from lxml import etree
import pandas as pd
from sqlalchemy import create_engine


class KYLC():

    def __init__(self):

        self.url = 'https://www.kylc.com/stats/global/yearly/g_gdp/{}.html'
        self.headers = {'设置你的headers'}
        self.time = [i for i in range(1960,2020)]


    """抓取网页数据"""
    def get_raw_data(self):
        tables = pd.DataFrame()
        # GDP表的编制是从1960年开始的
        for i in self.time:
            url = self.url.format(i)
            time.sleep(1)
            resp = requests.get(url, headers= self.headers).text
            tree = etree.HTML(resp)
            code_list = tre
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值