自动提交脚本python_百度收录自动化提交脚本 - python

本文介绍了一种使用Python编写的自动提交脚本,用于将站点地图的URL提交给百度的快速收录功能。脚本每日定时运行,避免手动操作,提高了收录效率。内容包括脚本代码及错误总结。
摘要由CSDN通过智能技术生成

前言

百度新提供了一个快速收录功能,试了一下收录概率挺高的,大概是每日提交十个链接会有五个左右收录,这可比原来的普通收录要快多了。于是决定不能浪费每天的名额,然而每天手动提交太麻烦,就写了个自动提交的脚本。这个脚本可以放在本地每日开机启动或者放在服务器上每日定时执行。

4d92c31c8ea895744a160e2d7f6704f4.png

脚本代码

#-*- coding: utf-8 -*-

import os

import requests

import re

class UrlAutoPost(object):

def __init__(self, urlSiteMap, urlPost, maxiumPost = 10, recordFilePath = '_urlPosted.txt'):

'''

Params:

urlSiteMap: 站点地图的url

urlPost: 百度链接提交url接口

maxiumPost: 每日允许的提交上限(百度快速收录有这样的限制)

recordFilePath: 记录已经提交过的url的文件路径

'''

self.urlSiteMap = urlSiteMap

self.urlPost = urlPost

self.HEADERS_POST = {

"User-Agent": "curl/7.12.1",

"Host": "data.zz.baidu.com",

"Content-Type": "text/plain",

"Content-Length": "83"

}

# 每日允许提交的url限额

self.maxiumPost = maxiumPost

# 记录之前已经发送过的url的文件路径

self.recordFilePath = recordFilePath

def getPostUrls(self):

'''

Return: 之前已经发送过的url集合

'''

postedUrls = set()

if(os.path.exists(os.path.join(os.getcwd(), self.recordFilePath))):

with open(self.recordFilePath, 'r') as recordFile:

for line in recordFile.readlines():

line = line.replace('\n', '')

postedUrls.add(line)

postedUrls = postedUrls

return postedUrls

def getSiteMapUrls(self):

'''

Return: 站点地图中所有的url所构成的集合

'''

responseSiteMap = requests.get(self.urlSiteMap)

# 正则匹配所有和之间的字符串

pattern = re.compile(r'(.*?)')

siteMapUrls = set(pattern.findall(responseSiteMap.content.decode('utf-8')))

return siteMapUrls

def writePostedUrls(self, postedUrls):

'''

向记录文件中写入已经发送过的url,如果全部发送过则清空文件重新写入

Params:

postedUrls 已经发送过的url列表

'''

with open(self.recordFilePath, 'w' if len(postedUrls)

for line in postedUrls:

recordFile.writelines(line+'\n')

def post(self):

'''

post一定限额的url

Return: post返回的信息

'''

# 所有需要提交的url

allPostUrls = self.getSiteMapUrls() - self.getPostUrls()

# 由于限额限制实际提交的url

realPostUrls = [allPostUrls.pop() for i in range(min(self.maxiumPost, len(allPostUrls)))]

# 如果有待发送的url数量小于限额,为了充分利用所有限额,并且考虑到每天提交的url不会完全收录,所以剩下的限额用于全部siteMap

# 的url重新发送,实际上就是把发送逻辑整体上看为一个循环队列。

additionUrls = []

if len(realPostUrls) < self.maxiumPost:

allPostUrls = self.getSiteMapUrls() - set(realPostUrls)

additionUrls = [allPostUrls.pop() for i in range(self.maxiumPost-len(realPostUrls))]

self.writePostedUrls(additionUrls)

else:

self.writePostedUrls(realPostUrls)

realPostUrls += additionUrls

# 发送post请求,得到推送结果提示信息

info = requests.post(self.urlPost, data='\n'.join(realPostUrls), headers=self.HEADERS_POST)

# 根据返回的状态码确定提示信息

if info.text.find('error') != -1:

statusCode = info.text[info.text.find('error')+len("error':"):info.text.find('error')+len("error':")+3]

if statusCode == '400':

return "No submissions need to be updated or site error or over quota"

elif statusCode == '401':

return "Token is not valid"

elif statusCode == '404':

return "Api is not found"

elif statusCode == '500':

return "Internet error"

else:

return "unknow error"

else:

return info.text

if __name__ == "__main__":

urlAutoPost = UrlAutoPost('https://cstlife.com/sitemap.xml', 'http://data.zz.baidu.com/urls?site=https://cstlife.com/&token=fc3Ggj5gjDvjkai4&type=daily')

print(urlAutoPost.post())

错误总结

request.post()函数中data参数接收一个字符串,直接传入列表是不可以的。这个函数返回的也是一个字符串,而对于这个字符串实际上它的内容是一个字典,只是用字符串包起来了,所以没法直接当成字典用。

打开文件时一定要注意读取方式,是否会清空文件,读取或写入的位置在开头还是在末尾。

要注意按行读取文件时,每一行行末都有一个'\n',python并没有自动把它去除掉。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值