python文件内容去重优化_关于python在seo中的运用

随着前两年云计算和大数据的到来,python 已经火了一遍,目前更是火的一塌糊涂。IEEE Spectrum 研究报告显示,python语言目前已经排名第一,它被成为全能语言,web站开发,爬虫数据采集,大数据分析,机器学习以及未来发展大方向的人工智能,python无所不能。而它在seo中的应用貌似seoer们却了解不多,其实它更多的是作为seo辅助工具,开发一些seo常用的工具,来实现工作上的高效率。

有人认为python应用在seo中主要是内容采集,当然也有工具能实现,如(火车头采集器),但是如果这样认为那就太片面了,下面举几个例子,我们看下python在seo工作中的都可以怎么用。

定期更新采集

#coding:utf-8

import urllib2,re,pycurl,StringIO,sys,lxml,requests,time

from bs4 import BeautifulSoup

str_time=time.strftime('%Y-%m-%d',time.localtime())

op_txt=open('url.txt','a')

url = 'http://www.****.com/sitemap/group1.htm'

html=requests.get(url).content

soup = BeautifulSoup(html,"lxml")

zidian={}

c=0

with open('url.txt') as f:

for i in f.readlines():

i=i.strip()

zidian['%s'%(i)]=c

c+=1

for urllist in re.findall(re.compile(r'

.*?href="(.*?)" target="_blank">(.*?)'),str(soup)):

url_data=urllist[0].strip()

title=urllist[1]

if '2017' in title:

print title,url_data

if zidian.has_key(url_data):

print u'没有更新'+str_time

continue

else:

print u'成功更新'+str_time

op_txt.writelines('%s\n'%url_data)

# url="http://www.k***n.com/k-news/"

# html=urllib2.urlopen(url).read()

# #print html

# for urllist in re.findall('

(.*?)',html):

# #print urllist[0],urllist[1]

# if '春节' in urllist[1]:

# print urllist[1],urllist[0]

重命名一个目录下所有文件夹下的文件名

#encoding=utf-8

import os,sys

reload(sys)

sys.setdefaultencoding('utf-8')

# path = 'C:\Users\Administrator\Desktop\image\\'

for i in os.listdir('C:\Users\Administrator\Desktop\image'):

f=1

img_dir='C:\Users\Administrator\Desktop\image\%s\\'%i

# print img_dir

for n in os.listdir(img_dir):

pic_name=n.decode('gbk') # .decode('gbk')

new_name=img_dir+i+'(%s).jpg'%f

path=img_dir+pic_name

print path

os.rename(path, new_name)

f+=1

print u"重命名成功"

关键词去重

wen1_dict={}

c=0

for wen1_line in open('wen1.txt'):

wen1=wen1_line.strip()

wen1_dict['%s'%(wen1)]=c

c+=1

for i in range(1,10):

i=str(i)

if wen1_dict.has_key(i):

continue

else:

print i

其实python还能实现更多的操作,这写操作虽然有些小工具也能做到,但是如果我们会一门语言的话,短短几行代码就可以实现,根据自己的需求去写,不用翻来覆去找软件测试,何乐而不为呢。都说SEO干的活又累又杂,行业走下滑趋势,其实是需要seo人员懂的越来越多,学的越来越多,提升自身素质,才能跟上互联网发展的脚步,否则就容易被淘汰了。所以seo还是基于技术基础之上的,要不断学习新东西,如果只懂得外链,写文章,那seo工作确实是枯燥无味了。文章出自 秦皇岛seo?

Stephen 2017.11.2

喜欢 (4)or分享 (0)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值