爬虫
快乐虫
这个作者很懒,什么都没留下…
展开
-
数据可视化(二)A股三大指数10年涨跌幅比较:数据可视化
获得数据之后,利用matplolib做一个10年累计涨跌幅动画。工具:Jupyter notebookmatplotlibpandas思路:准备数据创建画布初始化图像更新图像创建动画对象展示代码如下:%matplotlib notebook import pandas as pdimport matplotlib.pyplot as pltimport matplotlib.ticker as tickerfrom matplotlib.animation imp原创 2020-11-13 07:22:28 · 616 阅读 · 0 评论 -
数据可视化(一)A股三大指数10年涨跌幅比较:数据爬取和整理
闲来无事,做一张A股三大指数10年涨跌对比图。首先爬取数据:工具:baostockpandas用baostock可以轻松的获取股票交易数据,这里我主要爬取过去十年A股三大指数的K线数据。基本思路:登录系统利用内置函数获取历史k线数据打印结果输出结果到csv文件,方便后续处理登出系统代码如下:import baostock as bsimport pandas as pddef get_stockdata(stock_code, stock_name, start_time原创 2020-11-13 07:20:11 · 1470 阅读 · 0 评论 -
爬虫练习---爬取最新全球、全国及各省疫情数据(四):疫情数据可视化
工具:anocondaJupyter notebookmatplotlib%matplotlib notebookimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=Falsefrom matplotlib.animation import Func原创 2020-11-04 15:41:59 · 2514 阅读 · 1 评论 -
爬虫练习---爬取最新全球、全国及各省疫情数据(三):数据清洗
爬虫取得的数据一般用于分析,下面,我们将先前获得的数据转换为CSV文件,方便分析。目前我们获得的数据格式如下:基本结构如下:[[ { 20200123美国 }, {20200124美国 }…],[ { 20200123法国 }, {20200124法国 }…],…]所有国家和地区在一起组成一个列表,每个国家也是一个列表,每天的疫情数据是一个字典,我们想把它转换为如下CSV格式的文件:思路:1、加载JSON文件,遍历列表,获得每个国家的疫情数据2、遍历单个国家疫情数据列表,获取国家名称,将累原创 2020-11-04 02:13:43 · 1553 阅读 · 3 评论 -
爬虫练习---爬取最新全球、全国及各省疫情数据(二):爬取1月23号以来各国疫情数据
一、工具:requestsBeautifulSouptqdm 用来显示采集进度url: https://ncov.dxy.cn/ncovh5/view/pneumonia二、网页分析:在最近一日各国疫情数据中,各国数据以字典形式存在于列表当中,每个字典中包含该国家的历史疫情数据URL。整体思路:1、加载最近一日各国疫情数据2、遍历上述列表,获取每个国家历史疫情URL3、调用爬取函数爬取内容三、代码:因为针对每个URL的爬取过程是一样的,所以将之前爬取最近一日各国疫情的代码封装一下原创 2020-10-29 22:09:06 · 2866 阅读 · 3 评论 -
爬虫练习---爬取最新全球、全国及各省疫情数据(一):爬取最近一天全球各国疫情数据
一、工具:requestsBeautifulsoupurl: https://ncov.dxy.cn/ncovh5/view/pneumonia二、网页分析:打开网页,按F12分析数据结构:三、数据爬取整体思路:1、爬取最近一天全球各国疫情数据2、爬取1月23号以来各国疫情数据3、爬取最近一天国内疫情数据4、爬取1月22号以来国内各省、市疫情数据爬取方法:爬取数据—解析数据—保存数据爬取最近一天全球各国疫情数据:import requestsfrom bs4 impor原创 2020-10-26 20:52:41 · 3992 阅读 · 3 评论 -
爬取GitHub上项目热度排名
本文参考《python编程 从入门到实践》,在其基础上略作修改,供学习参考导入模块import requestsimport pygalfrom pygal.style import LightColorizedStyle as LCS, LightenStyle as LSfrom urllib.error import URLError, HTTPError, ContentTooShortError执行API调用并存储响应url = 'https://api.github.com/se原创 2020-07-29 23:57:02 · 768 阅读 · 0 评论