项目简介
在中国矿业大学计算机学院官网新闻中,检索是否含有某个词,并将结果输出到Excel
目标网站:http://cs.cumt.edu.cn/index/xwdt.htm
包含的新闻类型:新闻动态、通知公告、学术交流、学生风采、师生风采和教学科研
项目成果
生成一个Excel文件,四列分别为:新闻类型、新闻标题、新闻链接、含有哪些检索词
源代码
import urllib.request
import urllib.error
from bs4 import BeautifulSoup
import re
import xlwt
# 此处填入所有敏感词
words = ["李卿", "付德权"]
# 新闻类型
# 比如通知公告的列表页为:http://cs.cumt.edu.cn/index/tzgg.htm
# 那么就将tzgg加入typeList列表
typeList = ["xwdt", "tzgg", "xsjl", "xshd", "ssfc", "jxky1"]
line = 0
workbook = xlwt.Workbook(encoding="utf-8")
worksheet = workbook.add_sheet(