关闭

Python爬虫爬取博客访问量

标签: 爬虫访问量python
1453人阅读 评论(0) 收藏 举报
分类:

实现功能:
查看自己活着别人CSDN中每篇博客的访问量
语言:
Python3.5
用到的库:
requests
re
步骤:
1.找到数据源:找到一个现实所有博客的页面,在一篇博客的右上方可以点击目录查看所有博客的名字和浏览次数。
2.筛选标题:审查元素找到标题对应的位置,观察标题前后的代码,找到规律编写正则表达试。
3.筛选浏览量:同上
4.取数据:爬取页面,用正则表单是匹配标题和浏览量。
5.输出:根据标题对应的访问量输出爬取的内容
结果:
如图


代码

# -*- coding:utf-8 -*-

import requests
import re


header = {
          'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:47.0) Gecko/20100101 Firefox/47.0',
          'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
          'Accept-Language': 'en-US,en;q=0.5',
          'Accept-Encoding': 'gzip, deflate, br'
          }
#步骤1
html = requests.get('http://blog.csdn.net/boomhankers?viewmode=list',headers = header)
print('结果:',html.status_code)
print('原因:',html.reason)
#步骤2、3
rule1 = 'title="阅读次数">阅读<\/a>\((.*?)\)<\/span>'
rule2 = '<span class="link_title"><a href=".*?">(.*?)</a></span>'
patten1 = re.compile(rule1,re.S)
patten2 = re.compile(rule2,re.S)
#步骤4
tileArray = re.findall(patten2,html.text)
timeArray = re.findall(patten1,html.text)
#步骤5
i = 0
for tile in tileArray:
    print(tile+": "+timeArray[i])
    i = i+1


源码地址:点击打开链接

0
0
查看评论

Python 自动刷博客浏览量

哈哈,今天的话题有点那什么了哈。咱们应该秉承学习技术的角度来看,那么就开始今天的话题吧。思路来源今天很偶然的一个机会,听到别人在谈论现在的“刷量”行为,于是就激发了我的好奇心。然后看了下requests模块正好对我有用,就写了一个简单的测试用例。神奇的发现这一招竟然是管用的。那还等什么,开刷咯。前奏...
  • Marksinoberg
  • Marksinoberg
  • 2016-05-26 19:47
  • 18782

python 爬取博客访问量并且统计数据成图

萌生思路写了csdn博客已有半年之久了,虽然一直当做笔记记录自己的技术成长,但是发现有一个博客的访问量,这点还是挺吸引人的,于是打算做一个数据统计,看看究竟是哪些日子的数据量增长的较快。。 有了思路好说呀,接下来就是实现了。。爬取自己博客访问量环境 Python3.6 Windows10 第三方库...
  • s740556472
  • s740556472
  • 2017-10-15 11:04
  • 813

PHP爬虫之刷博客访问量

本着学以致用的态度,现在想试试用爬虫技术来刷一刷博客访问量。 学习交流之用,不要瞎搞。 <?php //只需把beginUrl改为你的博客列表首页就可以了 $beginUrl = "http://blog.csdn.net/qq_27988539?viewmode=contents&...
  • qq_27988539
  • qq_27988539
  • 2017-08-16 11:11
  • 1609

Hello Python!用python写一个抓取CSDN博客文章的简单爬虫

网络上一提到python,总会有一些不知道是黑还是粉的人大喊着:python是世界上最好的语言。最近利用业余时间体验了下python语言,并写了个爬虫爬取我csdn上关注的几个大神的博客,然后利用leancloud一站式后端云服务器存储数据,再写了一个android app展示数据,也算小试了一下这...
  • yazhi1992
  • yazhi1992
  • 2016-06-25 00:14
  • 6735

简单CSDN爬虫,实现博客访问量记录

简单CSDN爬虫,实现访问量记录
  • hurmishine
  • hurmishine
  • 2016-11-04 13:53
  • 1023

用python爬虫方式:刷文章阅读量

利用python爬虫来抓取你要的网页内容,实际上是对该内容的一次阅读,这样可以带来阅读量的增加。这次以爬去CSDN博客为例,其他的网站也许要另外设置。使用python第三方包有:bs4、requests、time 这里间歇时间设置为2秒 采用headers来隐藏,原因是:CSDN设置了防爬虫的措...
  • xxzhangx
  • xxzhangx
  • 2016-10-06 21:30
  • 3684

关于爬虫技术闲聊

本文全面的介绍了爬虫的原理、技术现状、以及目前仍面临的问题。如果你没接触过爬虫,本文很适合你,如果你是一名资深的虫师,那么文末的彩蛋你可能感兴趣。 需求 万维网上有着无数的网页,包含着海量的信息,无孔不入、森罗万象。但很多时候,无论出于数据分析或产品需求,我们需要从某些网站,提取出我们感...
  • hj7jay
  • hj7jay
  • 2017-03-13 09:15
  • 257

Java网络编程(一) - Java网页爬虫 - 爬取自己的CSDN博客标题和阅读数(附源码)

0 什么是爬虫 网络有很多信息, 比如以"爬虫"为关键字搜索, 获得1,000,000条结果, 不可能靠人工去检测哪些信息是需要的. 所以爬虫的目的, 就是自动获得网页内容并保存有用信息. 1 一个Java爬虫需要哪些技术 s f
  • caib1109
  • caib1109
  • 2016-05-29 12:00
  • 2722

【Python脚本】-爬虫得到CSDN博客的文章访问量和评论量

对于CSDN博客,我们比较关注的就是文章的访问量和评论量。但是当文章多了之后,我们想看每篇文章的访问量变得很费劲。通过爬虫,我们可以把每篇博客的基本信息都能得到。之后,可以再进行进一步的统计分析。脚本如下: #!usr/bin/python # -*- coding: utf-8 -*- impo...
  • Kevin_zhai
  • Kevin_zhai
  • 2016-08-31 15:37
  • 1476

Python爬虫小实践:爬取任意CSDN博客所有文章的文字内容(或可改写为保存其他的元素),间接增加博客访问量

Python并不是我的主页,当初学Python主要是为了学爬虫,以为自己觉得能够从网上爬东西是一件非常神奇又是一件非常有用的事情,因为我们可以获取一些方面的数据或者其他的东西,反正各有用处。 这两天闲着没事,主要是让脑子放松一下就写着爬虫来玩,上一篇初略的使用BeautifulSoup去爬某个CSD...
  • HW140701
  • HW140701
  • 2017-02-15 16:03
  • 3091
    个人资料
    • 访问:44201次
    • 积分:1069
    • 等级:
    • 排名:千里之外
    • 原创:60篇
    • 转载:0篇
    • 译文:1篇
    • 评论:14条
    博客专栏
    文章分类
    最新评论