-
实 验 内 容 : http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html网址中提取大学的排名信 , 包括 排名、学校名称、省市、总分以及所 有的指标得分(生源质量(新生高考成绩得分、培养结果(毕业生就 业率)、社会声誉(社会捐赠收入· 千元)、科研规模(论文数量 · 篇)、 科研质量(论文质量·FWCI )、顶尖成果(高被引论文 · 篇)、顶尖人 才(高被引学者· 人)、)科技服务(企业科研经费 · 千元)、成果转化 (技术转让收入· 千元)、学生国际化(留学生比例)) ,并将爬取的信 息存在当前目录中的“ 大学排名 .csv” 。
import re,requests import csv import numpy import lxml from bs4 import BeautifulSoup url1 = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html" html1 = requests.get(url1).content.decode() soup = BeautifulSoup(html1,'lxml') tag = soup.find(class_='table table-small-font table-bordered table-striped') text1 = tag.find_all('th')[0:4] text2 = tag.find_all('option') text3 = tag.find_all('td') th = [] td = [] for a in text1+text2: th += [a.string] for a in text3: td +
Python使用bs4库爬虫实例
最新推荐文章于 2023-06-28 17:49:07 发布
本文介绍了一系列Python爬虫实验,包括从不同网站抓取大学排名信息、电影详情、彩票开奖数据等,并将数据存储为CSV文件。涉及的技能包括使用bs4库解析网页、分析URL规律、循环遍历多页内容以及数据整理。
摘要由CSDN通过智能技术生成