import requests import re import bs4 from bs4 import BeautifulSoup as bs for i in range(1,11):#获取11页的新闻数据 if i==1: url = "http://news.gzcc.cn/html/xiaoyuanxinwen/index.html" else: url="http://news.gzcc.cn/html/xiaoyuanxinwen/"+str(i)+".html" r=requests.get(url)#获取每一页的链接 r.encoding='utf-8'#转化编码格式 soup=bs(r.text,'html.parser')#使用BeautifulSoup对数据进行格式化处理 a=soup.select('.news-list li a ')#获取HTML中的新闻页所在的a标签 for j in a: w=j.get('href')#获取链接 w1=requests.get(w) w1.encoding='utf-8'#转换编码格式 soup=bs(w1.text,'html.parser') c=soup.select('.show-content') d=c[0].get_text()#获取文本 path=r"C:\Users\Administrator\Desktop\zcy\text"#设置保存地址 f=open(path+"\\"+w.split('/')[-1]+'.txt','a+',encoding='utf-8')#打开文件 f.write(d)#把数据写进文件 f.close()#关闭 path1=r"C:\Users\Administrator\Desktop\zcy\photo"#创建图片保存地址 e =soup.select('div[style="text-align: center;"] img')#获取图片所在标签 for z in e: r3=z.get('src') r4=requests.get(r3) f=open(path1+"\\"+r3.split('/')[-1],'wb') f.write(r4.content) r.close()
学校官网数据的爬取
最新推荐文章于 2024-05-30 10:08:42 发布