此文章面向零基础的朋友,按照操作步骤执行代码即可。
1、首先安装python环境(安装包可在python官网下载),安装步骤引用自其他博主@愤怒的懒洋洋
最好选择自定义安装,如红框,自己选择一个可以找到的路径(尽量不要在C盘),可在D盘下新建文件夹(文件名称自定义为英文名,最好不要用中文名称命名)用来存放安装文件。图片中的两个小框要选中打勾。
选择下一步进入该页面,选择Install进行安装。
显示安装成功后,点击close关闭界面。现在安装的只是python语言环境,想要正式操作代码,还需要安装pycharm语言工具,python 和pycharm 的关系可理解为后台和前端,你在前端操作流程,服务在后台运行,使用pycharm编写代码,代码在python环境中运行。
2、安装pycharm(可进pycharm官网下载安装包)
和上面一样,不要默认安装C盘,自己选择一个路径,可在D盘或E盘下面新建一个文件夹存放,也方便记住位置。
按照图片选择即可,点击next进入下一步,
3、安装完成后,打开pycharm
右击选择左上角的 文件,左击选择New,再选择directory,新建一个python文件夹,自己命名后按enter健即可。
文件夹建好后,右击文件夹,按如下路径选择,新建一个python文件
自己命名,默认第一个,随后按enter键即可
打开你新建的随便叫什么名字的py文件,这时注意查看上方,上方显示的是你打开的这个py文件的存储路径,记住这个路径,这时候把你所需要的excel文件(这张excel一般是你从中台或者别的地方导出的网址链接,导出后需要对你的excel内容进行清洗,保留你所需的编码列和网址链接列即可,不要超过两列,网址链接列在表格里应为第二列,因为本次代码只运行两个列表循环,且只对第二个列表循环进行链接的判断) ,放置到这个文件的存储路径下面,和这个随便叫什么名字的py文件放在同一个文件夹即可。
如图中的测试表2,表格内容格式如上,这时在pycharm左边的界面就会出现你刚刚放进pycharm文件存储位置下面的这张表,说明这就可以在刚刚那个随便什么名字的py文件里打开这张表了。
4、双击打开那个随便叫什么名字的py文件,把代码复制进去即可
下面是代码:
import requests #请求模块 import urllib from openpyxl import load_workbook #读取工作簿的模块 from openpyxl import Workbook #写入工作簿的模块 #1.读取文件 myBook=load_workbook('测试表2.xlsx') mySheet=myBook.worksheets[0] print(mySheet) nameColumn=[] url=[] for row in range(mySheet.max_row): nameColumn.append(mySheet.cell(row+1,1).value) # 获取名称列 url.append(mySheet.cell(row+1,2).value) # 获取url列 print(nameColumn,url) #2.请求资源头 reList=[] #构建状态码判断集合 for i in range(len(url)-1): try: html=requests.head(url[i+1]) re=html.status_code if re==404: reResult="链接失效" else: reResult = "链接有效" reList.append(reResult) except Exception as error : reResult='链接有误' reList.append(reResult) continue #3.写入文件 newBook=Workbook() #新建文件 newSheet=newBook.create_sheet('判断404',0) #新建表 newSheet.cell(1,1).value='名称' newSheet.cell(1,2).value='链接' newSheet.cell(1,3).value='链接判断' for i in range(len(reList)): newSheet.cell(i+2,1).value=nameColumn[i+1] newSheet.cell(i+2,2).value=url[i+1] newSheet.cell(i+2,3).value=reList[i] newBook.save('测试表3.xlsx') #保存新表
注意:
在你复制粘贴后,发现import 和from后面的库名下面有波浪红线(如图中的requests、openpyxl),说明你还没安装这两个库,这时,点击左上方的File,选择setting
点击后选择这个模块:
点击+号,然后:
然后在搜索框里搜索你还没有安装的库名(如的requests、openpyxl),选择默认的搜索结果,再点击下方的安装包,显示安装成功后将该页面关掉即可。
5、这时就可以正常运行代码了,库名下面不会显示红色波浪了,正常情况如下:
这时,需要修改代码里的两个参数:
5.1 打开的表名:第一个参数里的表名 应和之前放入存储文件的excel文件名完全一致(括号里的单引号不要删)
5.2 第二个参数:在最后一行,代码判断完链接后会将判断内容重新写入一个新表,需要自己定义新表名。
5.3 在代码界面右击,选择运行这个文件:
5.4 代码运行需要时间,数据量越大时间就略长,主要yuan是在其中设置了几个打印步骤用于观察反馈,报错时方便排查,这个会导致运行速度有点慢,不喜欢的话可以把其中的两个print语句删掉。
当下方出现进程结束的字样说明运行结束,这时左侧就会出现一个新命名的表,关掉pycharm,去之前的py文件存储位置下面找到张表打开即可。
总结:本次代码已经过优化,除了可以判断状态码为404的链接外,还可以判断因拼写错误、缺漏显示无法连接的链接,判断结果显示“链接有误”,自行查找后更正。