爬虫之 段子网

爬虫之 段子网

https://ishuo.cn/{i} i in ['duanzi','yulu','joke','xiaozhishi','duanyu']

import requests
import re
for i in ['duanzi','yulu','joke','xiaozhishi','duanyu']:  # 对多个页面进行爬文字
    response = requests.get(f'https://ishuo.cn/{i}')  # 模拟浏览器打开网页
    data = response.text  #

    # .匹配所有字符,*表示前面的字符0到无穷个
    content_res = re.findall('<div class="content">(.*?)</div>', data)
    title_res = re.findall('<a href="/subject/.*?">(.*?)</a>', data)
    title_res= title_res[10:60]
    title_content_dic = {}
    for i in range(len(title_res)):
        title_content_dic[title_res[i]] = content_res[i]
        # print(title_content_dic)

    # print(title_content_dic)
    for i in title_content_dic.items():
        # print(str(i)+'\n')
        print(f'{i[0]:<40} | {i[1]:<1000}')

转载于:https://www.cnblogs.com/dadazunzhe/p/11232539.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值