正则表达式举例

#encoding=utf-8

import re
# html里是文本里的内容
f = open('text.txt','r')
html = f.read()
f.close

# #爬取标题
# # 需要寻找的<title>只出现一次,search()只返回第一个匹配的元素,不用遍历全部,效率更高
# title = re.search('<title>(.*?)</title>',html,re.S).group(1)
# print title

# #爬取链接
# Links = re.findall('href="(.*?)"',html,re.S)
# print Links
# for each in Links:
#     print each

# #提取部分文字信息:先爬大,再爬小
# text_fied = re.findall('<ul>(.*?)</ul>',html,re.S)[0]
# #猜想,当findall得到的元素是一个元组,但是这个元组仅有一个时,需要像search那样给定位置。
# print text_fied
# the_text = re.findall('">(.*?)</a>',text_fied,re.S)
# for e_text in the_text:
#     print e_text

#sub实现翻页功能
old_url = "http://www.jikexueyuan.com/course/android/?pageNum=2"
total_page = 20

for i in range(2,total_page+1):
    new_link = re.sub('pageNum=\d+','pageNum=%d'%i,old_url,re.S)
    print new_link
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值