Python爬取csdn个人主页文章浏览量并生成图像

工具:PyCharm

分析:首先对需要爬取的阅读量进行分析,在html页面中,阅读量的显示是在

<span class="read-num">阅读数:.*</span>

语句中,然后得到网页的html对此语句进行正则表达式的匹配。

由于要生成图像,图像是由点来确定的,所以横坐标自然是1-n的文章数,但在爬取的过程中发现第一篇找到的并不是我的文章,所以就直接忽略掉了。然后就是对爬取到的结果进行切割,要把其中的数字全部切割出来,并且转化为整型,将这一组数对应的存入另一个数组中,然后就是调用库函数pylab,放入横坐标数组,以及纵坐标数组,生成图像。

代码如下:

import pylab
import requests
import numpy
import re;
import urllib;
url = "https://blog.csdn.net/ever_glow";
str = requests.get(url).text;
aim = r'<span class="read-num">阅读数:.*</span>';
s = re.compile(aim);
li  = s.findall(str);
now = 1;
x = [];
y = [];
for i in li:
    if(now == 1):
        now += 1;
        continue;
    x.append(int(now-1));
    now += 1;
    t = re.compile(r"[\d]");
    tt = t.findall(i);
    sum = 0;
    a = list(map(int,tt));
    for j in a:
        sum = sum*10+j;
    y.append(sum);
print(x);
print(y);
pylab.plot(x,y);
pylab.title("Visit Display");
pylab.show();

图像如下:

不得不说python的库确实强大,好多东西都是封装好的,让我这种菜鸡体验感极好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值