boren - 学习用python爬取脑经急转弯

本文介绍了如何使用Python进行网络爬虫,通过实例详细讲解了如何爬取并解析脑经急转弯网站上的内容,涉及到了requests库的使用以及BeautifulSoup库进行HTML解析,适合初学者学习爬虫基础。
摘要由CSDN通过智能技术生成
import requests
import re
for yema in range(1,75):
    print("正在爬取第%d页"%yema)
    wangzhi ="http://www.2345.com/inner/jzw/%d.htm"%yema
    response = requests.get(wangzhi)
    # print(response.text)
    # .可以替代任意一个字符
    # * 指前面这个字符可以出现多次
    r =re.findall('<li><span class="table_left">(.*)</span>',response.text)
    f = open('text','a')
    for i in r:
        try:
            i = i.split('</span><span class="table_right"><a href="javascript:;" class="answer" οnclick="MM_popupMsg(')
            # print(i[0])
            f.write(i[0])
            f.write('\n')
            # print(i[1])
        except:
            continue  # 继续 跳出当前循环,进行下一次循环
    f.close()

# 匹配术:正则表达式
# re
s = """
nbvenkghmd ,fv,kgm x,dtr5foguhijhugyfgvhbjnkljhkgjhvbjjbcgfxvhbjkhvgchvbjknhvgcvhbjkhvghbjnkbhvg njbhvgbjSDTRFGJBHKNLKJHGVBJNKML;NBHVGCVHBJNKLJXFCGVHBJNKL;VFCGVHJKLHUGYFTCGVHBJHKGHCHBJKNJHVGB000000000152154@#$%^&*u(p)(trcgvhbfdxfcgASDADSASDDDD45/AD4./ADA4,4TS5RS.RASF2CZ46R87Z4knhv njkbhvjnkbhvbjn
"""
# f,g R F B @
import re
# # r = re.findall('f[a-z]g',s) # findall 发现所有
# # r = re.findall('r[0-9]f',s) # findall 发现所有
# #r = re.findall('B([0-9]*)@',s) # findall 发现所有
# r =re.findall("fdxfcg(.*)k",s)
# print(r)

# a = '大吉大利?几万吃鸡'
# a = a.split('?')
# print(a[0])

for i in range(10):
    if i == 5:
        continue
    print(i)


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值