福布斯系列之数据采集 | Python数据分析项目实战

本文详细介绍了如何使用Python爬虫采集福布斯全球上市企业2000强排行榜数据,涵盖2007年至2017年,涉及数据下载、解析、存储等步骤,使用requests、BeautifulSoup和csv库。
摘要由CSDN通过智能技术生成

这里写图片描述

1 数据采集概述

开始一个数据分析项目,首先需要做的就是get到原始数据,获得原始数据的方法有多种途径。比如:

  1. 获取数据集(dataset)文件
  2. 使用爬虫采集数据
  3. 直接获得excel、csv及其他数据文件
  4. 其他途径…

本次福布斯系列数据分析项目实战,数据采集方面,主要数据来源于使用爬虫进行数据采集,同时也辅助其他数据进行对比。

本文主要是介绍使用爬虫进行数据采集的思路和步骤。

本次采集的福布斯全球上市企业2000强排行榜数据,涉及年份从2007年到2017年,跨越10多年。

本次采集的目标网站,是多个网页,但多个网页的分布结构都有所不同,虽然思路和步骤都差不多,但需要分开来编写,分别采集。

2 数据采集步骤

数据采集大体分为几步:

  1. 目标主网页内容的Download
  2. 主网页上数据的采集
  3. 主网页上其他分发页面网站链接的采集
  4. 各分发网页数据的download与采集
  5. 将采集的数据保存

涉及到的python库包括,requests、BeautifulSoup以及csv。 下面以采集某年的数据为案例,来描述下数据采集的步骤。

import requests
from bs4 import BeautifulSoup
import csv

2.1 数据Download模块

主要是基于 requests,代码如下:

def download(url):
    headers = {
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) A
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值