python简单爬虫：爬取并统计自己博客页面的信息（一）

最新推荐文章于 2023-10-06 14:29:34 发布

Yvettre

最新推荐文章于 2023-10-06 14:29:34 发布

阅读量2k

点赞数 1

分类专栏： python 文章标签：爬虫 python 数据库日志爬取文本信息

本文链接：https://blog.csdn.net/Yvettre/article/details/79887024

版权

1. 什么是爬虫

也叫网络爬虫，简单来说，爬虫就是从一个根网站出发，根据某种规则获得更多的相关网站的url，自动下载这些网页并自动解析这些网页的内容，从中获取需要的数据。例如爬取某种图片、某类文本信息等。爬虫还可以用于编纂搜索引擎的网络索引。
爬虫所涉及的知识和技术面非常广，在本文中不作讨论；爬虫有很多种实现方法，本文提供的python方法仅是其中一种简单的实现，适用于规模较小的、自娱自乐的应用。有机会会持续更新。
爬虫会消耗目标系统的资源，作为一个遵纪守法、品德高尚的好市民，应该考虑目标系统是否愿意被爬虫访问、负载等问题，以及所爬取的内容是否得当、爬取内容的用途等问题。
这仅仅是本人目前对爬虫的一个很浅层面的理解，望各位轻喷。

2. 目的

实现爬虫的所有代码已上传至github: spiderMyCsdn。
定时爬取自己的csdn博客页面信息
解析信息为：阅读量(views)、粉丝数(fans)、喜欢数(likey)、评论数(comment)、积分(score)、排名(rank)、等级(level)、原创文章数(origin)
结果存为output-timestamp.csv，另将结果导入本地已手动创建的的mysql数据库中
每天定时爬取信息并将解析结果通过邮件发送给自己

3. 爬虫的整体框架

spider-diagram

4. 工程目录结构

- /config
    - config.ini
- /log
- /result
- /src
    - __init__.py
    - spider_main.py
    - url_manerger.py
    - html_downloader.py
    - html_parser.py
    - outpu

最低0.47元/天解锁文章

Yvettre

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
python简单爬虫：爬取并统计自己博客页面的信息（一）

1. 什么是爬虫也叫网络爬虫，简单来说，爬虫就是从一个根网站出发，根据某种规则获得更多的相关网站的url，自动下载这些网页并自动解析这些网页的内容，从中获取需要的数据。例如爬取某种图片、某类文本信息等。爬虫还可以用于编纂搜索引擎的网络索引。爬虫所涉及的知识和技术面非常广，在本文中不作讨论；爬虫有很多种实现方法，本文提供的python方法仅是其中一种简单的实现，适用于规模较小的、自娱自乐的应...
复制链接

扫一扫