抓取学校官网信息

时隔已久,终于决定写自己的第二个爬虫,和第一个爬虫没有什么区别,前者是图片,现在的是文章,用到的库有requests,re
代码如下

import re
import requests



import re
import requests


def getpages(url):
    headers = {'Cookie': 'gr_user_id=2e9f3f44-e4ba-466f-9588-966a9c3e3bc4; grwng_uid=cad3b972-f836-413f-96dd-07dac52149e6; UM_distinctid=1671a5f4101181-00ddc2c5bb38ed-37664109-144000-1671a5f41055f; JSESSIONID=B4C4952E75BDA4DB1373545CEA6BF187; safedog-flow-item=DF5FEB703783F399A4D8599B2E17DFC5'}    
    r = requests.get(url,headers = headers)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    return r.text
def getnews1(html,infolist):
    s = re.findall(r'href=".*?".*?title=".*?"',html)
    for i in range(len(s)):
        news = eval((s[i].split(' ')[0]).split('=')[1] + '=' + (s[i].split(' ')[0]).split('=
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值