python3爬取博客浏览量

爬取结果

这里写图片描述


代码很简单:

# encoding=utf8
import requests
import re
import time
from bs4 import BeautifulSoup

firstUrl = 'http://blog.csdn.net/snake_son/article/details/52282490'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
    ,
    'Cookie': '_message_m=23yegwleahbzf4fy5a05grgr; uuid=e7680a5d-2824-45d9-ac7a-06289c3d3cd8; avh=53945000%2c52282490; dc_tos=os5x0v; dc_session_id=1498493448566'
}

def getHtml(url):
    text = requests.get(url,headers).text
    # print('text  ',text)
    return text

# txt = getHtml(firstUrl)

def parseHtml(text):
    reg_next = r'blog_articles_xiayipian.*?location.href=(.*?);">'
    regNext = re.compile(reg_next)
    nextUrl = re.findall(regNext,text)
    print('当前新页面: ',nextUrl)
    str1 = ''.join(nextUrl).rstrip('\'')
    # htmurl = 'http://blog.csdn.net'+''.join(str1).rstrip('\'')

    # 将字符串前n个字符替换为指定的字符
    # strnset(sStr1,ch,n)
    sStr1 = ''.join(str1)
    ch = ''
    n = 1
    sStr1 = n * ch + sStr1[1:]
    htmurl = 'http://blog.csdn.net'+sStr1
    print('htmurl  '+htmurl)
    return htmurl


for i in range(1,56):
    text = getHtml(firstUrl)
    newUrl = parseHtml(text)
    firstUrl = newUrl
    print('first2 ',firstUrl,'newUrl ',newUrl)

依然用的是re,觉得用的还是蛮不错的,一开始学习java 是很拒绝的,因为这个玩意那时候学的一脸懵逼,现在可倒好,很多教程说python3 爬取内容,用beautifulsoup,xpath,能不用re的话,就尽量不用,虽然我用过beautifulsoup,但是现在估计也有些陌生了,现在用的正则确实蛮爽的,越用越熟练。这次爬取刷博客浏览量是为了验证能

不能真的是进行浏览量的增加,

答案是可以的

进行浏览量的刷,我是获取最早的一篇博客,然后选择下一页按钮进行重新new 一个url再次访问的。其他就是可能在list 与string方面稍微遇到点问题,进行url部分的去除操

作,有必要的说一点的是,类似python这种后端开发,基础还是很重要的,更多的是自己动手来解决问题的能力,学会找错,排bug,这次爬取很简单,半小时没用到,主要是锻炼回来晚了,

写到最后: 实现了自己以前对刚开始博客想让着浏览量剧增的想法,想着有多少人看过我写过的博客,现在实现了想想,确实简单,自己的浏览量也就昨晚爬过两次,进行校验,so。 每次小小的成就都会让你越来越喜欢上它的

--------------------- 作者:徐代龙 来源:CSDN 原文:https://blog.csdn.net/snake_son/article/details/73825007?utm_source=copy 版权声明:本文为博主原创文章,转载请附上博文链接!

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值