本文介绍如何利用requests+正则表达式爬取TIOBE编程语言热度数据,并使用openpyxl写入数据与pyecharts时间轮播图进行可视化。
一、数据获取
我们需要爬取的目标url为https://www.tiobe.com/tiobe-index/打开之后如下
分析网页源代码可以找到想要的数据,利用正则表达式提取出想要的数据,并保存到Excel中,便于后续数据处理和可视化。
完整爬虫代码如下,其中大多数语句都给出了详细注释,感兴趣的读者可以进一步研究。
# -*- coding: UTF-8 -*- """ @File :spider.py @Author :叶庭云 @CSDN :https://yetingyun.blog.csdn.net/ """ import requests import re import openpyxl import logging logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s') headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1" } wb = openpyxl.Workbook() # 创建工作簿对象 sheet = wb.active # 获取活动的工作表 # 编程语言 时间 热度 sheet.append(['Programing', 'Date', 'data_per']) url = 'https://www.tiobe.com/ti