Python爬网页标题加链接地址

import requests,re,json,xlwt
url="E:/pythonDemo/ccc.xls"
e=xlwt.Workbook()
s=e.add_sheet("d1")

pn=1
h=0
while 1==1:
    url1=f"https://guba.eastmoney.com/default,99_{pn}.html"
    res=requests.get(url1)
    html=res.text

    #标题
    gz='title="(.*?)" class="note"'
    cgz=re.compile(gz)
    c1=re.findall(cgz,html)

    #连接地址
    gz2='data-posttype=".*" href="(.*?)" title'
    cgz2=re.compile(gz2)
    c2=re.findall(cgz2,html)
    for i in range(len(c1)):
        res1=requests.get(f"https://guba.eastmoney.com{c2[i]}")
        html1=res1.text

        zgz="var post_article = (.*?)};"
        czgz=re.compile(zgz,re.DOTALL)
        cc1=re.findall(czgz,html1)
        if len(cc1)!=0:
            cc1=cc1[0]
            content=json.loads(cc1+"}")
            nr=content["post"]["post_abstract"]
            s.write(h,0,c1[i])
            s.write(h,1,nr)
            h+=1
    e.save(url)
    if '>下一页</a>' in html:
        pn+=1
    else:
        break

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值