福布斯系列之数据采集 | Python数据分析项目实战

最新推荐文章于 2024-07-06 07:12:39 发布

Python数据之道

最新推荐文章于 2024-07-06 07:12:39 发布

阅读量2.4k

点赞数 1

分类专栏： python python项目实战文章标签： python 数据分析爬虫数据挖掘福布斯

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lemonbit/article/details/77840977

版权

本文详细介绍了如何使用Python爬虫采集福布斯全球上市企业2000强排行榜数据，涵盖2007年至2017年，涉及数据下载、解析、存储等步骤，使用requests、BeautifulSoup和csv库。

摘要由CSDN通过智能技术生成

这里写图片描述

1 数据采集概述

开始一个数据分析项目，首先需要做的就是get到原始数据，获得原始数据的方法有多种途径。比如：

获取数据集（dataset）文件
使用爬虫采集数据
直接获得excel、csv及其他数据文件
其他途径…

本次福布斯系列数据分析项目实战，数据采集方面，主要数据来源于使用爬虫进行数据采集，同时也辅助其他数据进行对比。

本文主要是介绍使用爬虫进行数据采集的思路和步骤。

本次采集的福布斯全球上市企业2000强排行榜数据，涉及年份从2007年到2017年，跨越10多年。

本次采集的目标网站，是多个网页，但多个网页的分布结构都有所不同，虽然思路和步骤都差不多，但需要分开来编写，分别采集。

2 数据采集步骤

数据采集大体分为几步：

目标主网页内容的Download
主网页上数据的采集
主网页上其他分发页面网站链接的采集
各分发网页数据的download与采集
将采集的数据保存

涉及到的python库包括，requests、BeautifulSoup以及csv。下面以采集某年的数据为案例，来描述下数据采集的步骤。

import requests
from bs4 import BeautifulSoup
import csv

2.1 数据Download模块

主要是基于 requests，代码如下：

def download(url):
    headers = {
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) A

最低0.47元/天解锁文章

Python数据之道

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。