如何用python代码判断excel表里的链接

此文章面向零基础的朋友,按照操作步骤执行代码即可。

1、首先安装python环境(安装包可在python官网下载),安装步骤引用自其他博主@愤怒的懒洋洋

最好选择自定义安装,如红框,自己选择一个可以找到的路径(尽量不要在C盘),可在D盘下新建文件夹(文件名称自定义为英文名,最好不要用中文名称命名)用来存放安装文件。图片中的两个小框要选中打勾。

选择下一步进入该页面,选择Install进行安装。

 

显示安装成功后,点击close关闭界面。现在安装的只是python语言环境,想要正式操作代码,还需要安装pycharm语言工具,python 和pycharm 的关系可理解为后台和前端,你在前端操作流程,服务在后台运行,使用pycharm编写代码,代码在python环境中运行。

 2、安装pycharm(可进pycharm官网下载安装包)

和上面一样,不要默认安装C盘,自己选择一个路径,可在D盘或E盘下面新建一个文件夹存放,也方便记住位置。

按照图片选择即可,点击next进入下一步,

 

3、安装完成后,打开pycharm

 

右击选择左上角的 文件,左击选择New,再选择directory,新建一个python文件夹,自己命名后按enter健即可。

 

 文件夹建好后,右击文件夹,按如下路径选择,新建一个python文件

 

自己命名,默认第一个,随后按enter键即可

打开你新建的随便叫什么名字的py文件,这时注意查看上方,上方显示的是你打开的这个py文件的存储路径,记住这个路径,这时候把你所需要的excel文件(这张excel一般是你从中台或者别的地方导出的网址链接,导出后需要对你的excel内容进行清洗,保留你所需的编码列和网址链接列即可,不要超过两列,网址链接列在表格里应为第二列,因为本次代码只运行两个列表循环,且只对第二个列表循环进行链接的判断) ,放置到这个文件的存储路径下面,和这个随便叫什么名字的py文件放在同一个文件夹即可。

 

如图中的测试表2,表格内容格式如上,这时在pycharm左边的界面就会出现你刚刚放进pycharm文件存储位置下面的这张表,说明这就可以在刚刚那个随便什么名字的py文件里打开这张表了。

 

4、双击打开那个随便叫什么名字的py文件,把代码复制进去即可 

 

下面是代码:

import requests               #请求模块
import urllib
from openpyxl import load_workbook   #读取工作簿的模块
from openpyxl import Workbook        #写入工作簿的模块
#1.读取文件
myBook=load_workbook('测试表2.xlsx')
mySheet=myBook.worksheets[0]
print(mySheet)
nameColumn=[]
url=[]
for row in range(mySheet.max_row):
    nameColumn.append(mySheet.cell(row+1,1).value)         #    获取名称列
    url.append(mySheet.cell(row+1,2).value)                #    获取url列
print(nameColumn,url)
#2.请求资源头
reList=[]                                                 #构建状态码判断集合
for i in range(len(url)-1):
    try:
        html=requests.head(url[i+1])
        re=html.status_code

        if re==404:
            reResult="链接失效"
        else:
            reResult = "链接有效"
        reList.append(reResult)
    except Exception as error :
        reResult='链接有误'
        reList.append(reResult)
        continue
#3.写入文件
newBook=Workbook()                                           #新建文件
newSheet=newBook.create_sheet('判断404',0)                    #新建表
newSheet.cell(1,1).value='名称'
newSheet.cell(1,2).value='链接'
newSheet.cell(1,3).value='链接判断'
for i in range(len(reList)):
    newSheet.cell(i+2,1).value=nameColumn[i+1]
    newSheet.cell(i+2,2).value=url[i+1]
    newSheet.cell(i+2,3).value=reList[i]
newBook.save('测试表3.xlsx')                           #保存新表

 注意:

 在你复制粘贴后,发现import 和from后面的库名下面有波浪红线(如图中的requests、openpyxl),说明你还没安装这两个库,这时,点击左上方的File,选择setting

点击后选择这个模块:

 

点击+号,然后:

 然后在搜索框里搜索你还没有安装的库名(如的requests、openpyxl),选择默认的搜索结果,再点击下方的安装包,显示安装成功后将该页面关掉即可。

5、这时就可以正常运行代码了,库名下面不会显示红色波浪了,正常情况如下: 

这时,需要修改代码里的两个参数:

5.1 打开的表名:第一个参数里的表名 应和之前放入存储文件的excel文件名完全一致(括号里的单引号不要删)

5.2 第二个参数:在最后一行,代码判断完链接后会将判断内容重新写入一个新表,需要自己定义新表名。 

5.3 在代码界面右击,选择运行这个文件:

5.4 代码运行需要时间,数据量越大时间就略长,主要yuan是在其中设置了几个打印步骤用于观察反馈,报错时方便排查,这个会导致运行速度有点慢,不喜欢的话可以把其中的两个print语句删掉。

 当下方出现进程结束的字样说明运行结束,这时左侧就会出现一个新命名的表,关掉pycharm,去之前的py文件存储位置下面找到张表打开即可。

 总结:本次代码已经过优化,除了可以判断状态码为404的链接外,还可以判断因拼写错误、缺漏显示无法连接的链接,判断结果显示“链接有误”,自行查找后更正。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值