python3通过scrapy爬取CSDN指定博主的文章
需求背景
CSDN今年上线了“数据观星”的功能,可以看到最多30天的日访问量趋势。
现在想看每一篇文章的日访问情况,只能自己想办法了。于是想到用python来实现这个需求。
每天定时抓取每一篇文章的信息,和前一天阅读数相比,可以计算出前一天的阅读数量,然后存到MySQL数据中,进行下一步的分析。
项目结构
Spider代码
import re
import scrapy
from my_blog.items import MyBlogItem
class CsdnSpiderSpider(scr
原创
2020-08-05 17:06:02 ·
346 阅读 ·
0 评论