Python使用bs4库爬虫实例

最新推荐文章于 2023-06-28 17:49:07 发布

995_

最新推荐文章于 2023-06-28 17:49:07 发布

阅读量831

点赞数

分类专栏： Python爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sdau20172113/article/details/103100554

版权

本文介绍了一系列Python爬虫实验，包括从不同网站抓取大学排名信息、电影详情、彩票开奖数据等，并将数据存储为CSV文件。涉及的技能包括使用bs4库解析网页、分析URL规律、循环遍历多页内容以及数据整理。

摘要由CSDN通过智能技术生成

实验内容： http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html
网址中提取大学的排名信 , 包括排名、学校名称、省市、总分以及所有的指标得分（生源质量（新生高考成绩得分、培养结果（毕业生就业率）、社会声誉（社会捐赠收入· 千元）、科研规模（论文数量 · 篇）、科研质量（论文质量·FWCI ）、顶尖成果（高被引论文 · 篇）、顶尖人才（高被引学者· 人）、）科技服务（企业科研经费 · 千元）、成果转化（技术转让收入· 千元）、学生国际化（留学生比例）），并将爬取的信息存在当前目录中的“ 大学排名 .csv” 。
```
import re,requests
import csv
import numpy
import lxml
from bs4 import BeautifulSoup

url1 = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html"
html1 = requests.get(url1).content.decode()

soup = BeautifulSoup(html1,'lxml')
tag = soup.find(class_='table table-small-font table-bordered table-striped')
text1 = tag.find_all('th')[0:4]
text2 = tag.find_all('option')
text3 = tag.find_all('td')

th = []
td = []
for a in text1+text2:
    th += [a.string]
for a in text3:
    td +
```

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄7年

5
原创

0
点赞

8
收藏

3
粉丝

关注

私信

热门文章

分类专栏

Python爬虫 3篇
Java集合 2篇

最新评论

Python使用Selenium库爬取动态网页
zjm121221: 第一个股票数据爬虫失败，提示如下错误，另外2个代码成功，请大神帮助解决 File "C:/Users/hasee/PycharmProjects/pythonProject/main.py", line 14, in <module> table_emergence = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#dt_1'))) File "C:\Users\hasee\PycharmProjects\pythonProject\venv\lib\site-packages\selenium\webdriver\support\wait.py", line 80, in until raise TimeoutException(message, screen, stacktrace) selenium.common.exceptions.TimeoutException: Message:

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。