阳光高考院校库

阳光高考院校库爬取

爬取网址:https://gaokao.chsi.com.cn/sch/search–ss-on,searchType-1,option-qg,start-0.dhtml

爬取内容如图所示:在这里插入图片描述

代码`
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

根据观察可以看出网站第一页和第二页的网址是不同的,每一页的start都相差20,然后就是解析网页,用select获取需要爬取的内容,cookies填写自己的,我修改成了123

head = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4557.4 Safari/537.36',
'cookie':'123'
}
with open('阳光院校库.csv', "a", newline="", encoding='utf-8') as fp:
    writer = csv.writer(fp)
    header = ['院系名称', '院系所在地', '教育行政主管部门', '院校类型', '学历层次', '一流大学建设高校', '一流学科建设高校', '研究生院', '满意度']
    writer.writerow(header)
    fp.close()
for dex in range(0, 2780, 20):
    url = f'https://gaokao.chsi.com.cn/sch/search--ss-on,option-qg,searchType-1,start-{dex}.dhtml'
    html = requests.get(url,headers=head)
    soup = BeautifulSoup(html.text,'lxml')
    name = soup.select('td')
    

然后就将select获取的的内容,存到列表a中,并除去空格

    a = []
    for name in name:
        a.append(name.get_text())
    a = [x.strip() for x in a]

最后就是写入数据

    for i in range(0, len(a), 9):
        with open('阳光院校库.csv', "a", newline="", encoding='utf-8') as fp:
            writer = csv.writer(fp)
            writer.writerow([a[i], a[i + 1], a[i + 2], a[i + 3], a[i + 4], a[i + 5], a[i + 6], a[i + 7], a[i + 8]])

在这里插入图片描述
在这里插入图片描述
由于编码问题,文件中的数据都是这样的

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YaoAIPro

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值