Python使用bs4库爬虫实例

本文介绍了一系列Python爬虫实验,包括从不同网站抓取大学排名信息、电影详情、彩票开奖数据等,并将数据存储为CSV文件。涉及的技能包括使用bs4库解析网页、分析URL规律、循环遍历多页内容以及数据整理。
摘要由CSDN通过智能技术生成
  • 实 验 内 容 : http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html
    网址中提取大学的排名信 , 包括 排名、学校名称、省市、总分以及所 有的指标得分(生源质量(新生高考成绩得分、培养结果(毕业生就 业率)、社会声誉(社会捐赠收入· 千元)、科研规模(论文数量 · 篇)、 科研质量(论文质量·FWCI )、顶尖成果(高被引论文 · 篇)、顶尖人 才(高被引学者· 人)、)科技服务(企业科研经费 · 千元)、成果转化 (技术转让收入· 千元)、学生国际化(留学生比例)) ,并将爬取的信 息存在当前目录中的“ 大学排名 .csv”
    import re,requests
    import csv
    import numpy
    import lxml
    from bs4 import BeautifulSoup
    
    url1 = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html"
    html1 = requests.get(url1).content.decode()
    
    soup = BeautifulSoup(html1,'lxml')
    tag = soup.find(class_='table table-small-font table-bordered table-striped')
    text1 = tag.find_all('th')[0:4]
    text2 = tag.find_all('option')
    text3 = tag.find_all('td')
    
    th = []
    td = []
    for a in text1+text2:
        th += [a.string]
    for a in text3:
        td +
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值