Python二级题:MOOC学校名单|关键词提取和查找

一、题目

附件文件data.txt是教育部爱课程网中国大学 MOOC 平台的某个 HTML 页面源文件,里面包含了我国参与 MOOC 建设的一批大学或机构列表。‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬

问题1:请编写程序,从 data.txt 中提取大学或机构名称列表,将结果写入文件univ.txt,每行一个大学或机构名称,按照大学或机构 在data.txt 出现的先后顺序输出,样例如下:‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬

...
南京理工大学
...
南京师范大学
...‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬

提示:所有大学名称在 data.txt 文件中以 alt="南京理工大学" 形式存在。‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬

问题2:请编写程序,从 univ.txt 文件中提取大学名称,大学名称以出现“大学”或“学院”字样为参考,但不包括“大学生”等字样,将所有大学名称在屏幕上输出,大学各行之间没有空行,最后给出名称中包含“大学”和“学院”的名称数量,同时包含“大学”和“学院”的名称以结尾的词作为其类型。样例如下(样例中数量不是真实结果,北京工商大学嘉华学院算作学院):‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬

...
南京理工大学
...
长沙师范学院
...
包含大学的名称数量是10
包含学院的名称数量是12

二、第一题解决办法

1. 官方解法

通过split的方法,先根据【alt=】来分割字符,再用引号来分割,前者切片取最后一个元素【-1】,后者取第二个元素【1】,即引号后面的内容,所以官方给出的代码如下所示。

fi = open("data.txt","r")
f = open("univ.txt","w")
for line in fi:
    if "alt" in line:
        dx = line.split("alt=")[-1].split('"')[1]
        f.write("{}\n".format(dx))
f.close()
fi.close()

2. 个人解法

题目中没有要求,可以用用正则表达式来提取,这就要用到re.findall()来提取。这种好处是不用遍历每一行,直接读取内容提取即可,省时高效。

import re
f = open("univ.txt", "w")
with open("data.txt","r",encoding="utf-8") as fi:
    line = fi.read()
    line = re.findall('alt="(.*大学)"',line)
    for i in line:
         f.write(i+"\n")
f.close()

三、第二题解法

1. 官方的解法

官方解法中规中矩,用上了for循环,if判断,文本打开关闭,以及列表切换等等。

n = 0    
m = 0    
f = open("univ.txt", "r")  
lines = f.readlines()      
f.close()   
for line in lines:      
    line = line.replace("\n","")   
    if '大学生' in line:           
        continue
    elif '学院' in line and '大学' in line:  
        if line[-2:] == '学院':
            m += 1
        elif line[-2:] == '大学':            
            n += 1
        print('{}'.format(line))
    elif '学院' in line:           
        print('{}'.format(line))                                      
        m += 1                     
    elif '大学' in line:           
        print('{}'.format(line))   
        n += 1
print("包含大学的名称数量是{}".format(n)) #输出大学计数
print("包含学院的名称数量是{}".format(m)) #输出学院计数

考虑了排除了大学生这个关键词,然后用列表切片的方法来判断文本的结尾用的是学院还是大学。

2. 个人的解法

个人解法中,尽量用正则表达式来简化程序,用【$】限制以大学和学院结尾。用【re.findall()】来判断是否包含某个关键词。

import re
m = 0
n = 0
fi = open("univ.txt", "r",encoding='utf-8')
for line in fi:
    line = line.strip()
    daxue = re.findall("大学$",line)
    if len(daxue)!=0:
        m+=1
        print(line)
    xueyuan = re.findall("学院$",line)
    if xueyuan:
        print(line)
        n+= 1
print("包含大学的数量是{}".format(m))
print("包含学院的数量是{}".format(n))
fi.close()

三、学后反思

  1. 正则表达式中有很多不错的函数可以使用,如re.sub()可以正则替换,re. findall()批量查找,re.split()根据多个关键字进行切分。如果想使自己的程序更加简化,可以用正则来优化算法。
  2. 简化算法的方案有1)用with open()替换open(); 2)用列表推导式替换for循环;3) 用正则表达式模块re来替换其它循环查换,因为它不仅查找效率高,而且还可以定位,因此非常推荐使用。
  3. 在Python二级的考纲里没有这个re内置模块,复习中不作为重点,但是在日常编程中却功能强大,建议大家牢固掌握。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

PythonFun

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值