python简单爬虫:爬取并统计自己博客页面的信息(一)

1. 什么是爬虫
  • 也叫网络爬虫,简单来说,爬虫就是从一个根网站出发,根据某种规则获得更多的相关网站的url,自动下载这些网页并自动解析这些网页的内容,从中获取需要的数据。例如爬取某种图片、某类文本信息等。爬虫还可以用于编纂搜索引擎的网络索引。
  • 爬虫所涉及的知识和技术面非常广,在本文中不作讨论;爬虫有很多种实现方法,本文提供的python方法仅是其中一种简单的实现,适用于规模较小的、自娱自乐的应用。有机会会持续更新。
  • 爬虫会消耗目标系统的资源,作为一个遵纪守法、品德高尚的好市民,应该考虑目标系统是否愿意被爬虫访问、负载等问题,以及所爬取的内容是否得当、爬取内容的用途等问题。
  • 这仅仅是本人目前对爬虫的一个很浅层面的理解,望各位轻喷。
2. 目的
  • 实现爬虫的所有代码已上传至github: spiderMyCsdn
  • 定时爬取自己的csdn博客页面信息
  • 解析信息为:阅读量(views)、粉丝数(fans)、喜欢数(likey)、评论数(comment)、积分(score)、排名(rank)、等级(level)、原创文章数(origin)
  • 结果存为output-timestamp.csv,另将结果导入本地已手动创建的的mysql数据库中
  • 每天定时爬取信息并将解析结果通过邮件发送给自己
3. 爬虫的整体框架

spider-diagram

4. 工程目录结构
- /config
    - config.ini
- /log
- /result
- /src
    - __init__.py
    - spider_main.py
    - url_manerger.py
    - html_downloader.py
    - html_parser.py
    - outpu
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值