python爬虫之requests抓取数据

刚开始学习爬虫,利用requests抓取数据

以爬取QQ情侣签名为例

import requests
from lxml.html import etree
for page in range(1,500):
    url = 'http://www.qzone.cc/qianming/qinglv/list_%s.html'%page   # 爬取页面的url
    response = requests.get(url)	#  请求url
    response.encoding = 'utf-8'
    try:				#  异常捕获
        html = etree.HTML(response.content)
        content = html.xpath("//*[@id='refreshDiv']/dl/dd/div/p/text()")   #  利用xpath匹配标签中的内容
        with open('情侣.txt','a+',encoding='utf-8') as f:	#  写入数据
            for con in content:
                try:
                    f.write(con)
                    f.write('\n')
                    print('内容写入成功%s'%con  )
                    time.sleep(1)   #  避免访问频繁防止ip被封,使用time.sleep()降低访问的频率
                except Exception as e:
                    print('内容写入失败')
    except Exception as e:
        print("获取页面 %s 失败"%page)
上面用到了xpath,具体功能由于时间原因自行百度,本人使用的谷歌浏览器,用的是xpath helper这个插件

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值