import re # 正则表达式 进行文字匹配
import urllib.request, urllib.error # 制定url 获取网页数据
import xlwt
def main():
baseurl = “http://m.gaosan.com/gaokao/265440.html”
datalist = getData(baseurl)
savepath = “C:/Users/DELL/Desktop/中国大学排名.xls”
saveData(datalist,savepath)
正则表达式
paiming = re.compile(r’(.)....*') # 创建超链接正则表达式对象,表示字符串模式,规则
xuexiao = re.compile(r’.(.)...*')
defen = re.compile(r’..(.)..*')
xingji = re.compile(r’...(.).*')
cengci = re.compile(r’....(.*)')
爬取网页
def getData(baseurl):
datalist = []
html = askURL(baseurl) # 保存获取到的网页源码
soup = BeautifulSoup(html, “html.parser”) # soup是解析后的树形结构对象
for item in soup.find_all(‘tr’): # 查找符合要求的字符串形成列表
data = [] # 保存一个学校的所有信息
item = str(item)
#排名
paiming1 = re.findall(paiming, item) # re正则表达式查找指定字符串 0表示只要第一个 前面是标准后面是找的范围
if(not paiming1):
pass
else:
print(paiming1[0])
data.append(paiming1)
if(paiming1 in data):
#学校名字
xuexiao1 = re.findall(xuexiao, item)[0]
data.append(xuexiao1)
#得分
defen1 = re.findall(defen, item)[0]
data.append(defen1)
#星级
xingji1 = re.findall(xingji, item)[0]
data.append(xingji1)
#层次
cengci1 = re.findall(cengci, item)[0]
data.append(cengci1)
datalist.append(data) # 把处理好的一个学校信息放入datalist中
return datalist
得到指定一个url网页信息内容
def askURL(url):
我的初始访问user agent
head = { # 模拟浏览器头部信息,向豆瓣服务器发送消息 伪装用的
“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36”
}
用户代理表示告诉豆瓣服务器我们是什么类型的机器–浏览器 本质是告诉浏览器我们可以接受什么水平的文件内容
request = urllib.request.Request(url, headers=head) # 携带头部信息访问url
用request对象访问
html = “”
try:
response = urllib.request.urlopen(request) # 用urlopen传递封装好的request对象
html = response.read().decode(“utf-8”) # read 读取 可以解码 防治乱码
print(html)
except urllib.error.URLError as e:
if hasattr(e, “code”):
print(e.code) # 打印错误代码
if hasattr(e, “reason”):
最后
Python崛起并且风靡,因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低,但它的晋级路线很多,通过它你能进入机器学习、数据挖掘、大数据,CS等更加高级的领域。Python可以做网络应用,可以做科学计算,数据分析,可以做网络爬虫,可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多,你需要学好基础,再选择明确的方向。这里给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
👉Python所有方向的学习路线👈
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
👉Python必备开发工具👈
工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。
👉Python全套学习视频👈
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。
👉实战案例👈
学python就与学数学一样,是不能只看书不做题的,直接看步骤和答案会让人误以为自己全都掌握了,但是碰到生题的时候还是会一筹莫展。
因此在学习python的过程中一定要记得多动手写代码,教程只需要看一两遍即可。
👉大厂面试真题👈
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!