爬虫实战-1

# -*- coding: utf-8 -*-
'''
爬虫流程:
    1.确定需求
        你需要爬取哪些数据
    2.找到数据源地址
        你需要爬取的那些数据在哪个链接中
    3.观察链接规律
        比如页面是否需要翻页
        链接中有的参数可以不需要(了解)
    4.发生请求并且获取响应数据转换成相应类型
        发生请求:处理常见反爬虫(添加headers)(了解)
        转换成相应类型:
            json -->json() 
            html-->text
            图片-->content (了解)
            象json但不是json-->经过处理然后eval()或dict() (了解)
    5.解析数据
        提取出需要的数据
    6.存储数据
        爬下来的数据保存在文件中
'''
#https://www.jyshare.com/front-end/61/
#http://192.168.115.135/upload-labs-master/Pass-02/index.php?action=show_code
#http://192.168.115.135/upload-labs-master/Pass-03/helper.php?action=get_prompt

for i in range(1,4):
    if i<10:
        ix='0'+str(i)
    else:
        ix=i
    url=f'http://192.168.115.135/upload-labs-master/Pass-{ix}/index.php?action=show_code'
    import requests
    response=requests.get(url).text  #GET requests.get() POST requests.post
    提示=requests.get('http://192.168.115.135/upload-labs-master/Pass-03/helper.php?action=get_prompt').text
    #**************************************************************************
    #/html/body/div[2]/div[1]/ul/li[1]/a
    #/html/body/div[2]/div[1]/ul/li[2]/a
    #/html/body/div[2]/div[2]/ol/li[1]/p
    #/html/body/div[2]/div[2]/ol/li[3]/pre/code #源代码
    from lxml import etree
    res=etree.HTML(response) #初始化
    s=res.xpath('/html/body/div[2]/div[2]/ol/li[3]/pre/code/text()')[0]
    #**********************************************************************8
    '''
    1.打开文件 open('文件名','模式') r 读 w 写 b 二进制
    2.操作文件 .read()  .write() 
    3.关闭文件 .close()
    '''
    f=open(f'{ix}.txt','w',encoding='utf-8')
    f.write(s+提示)
    f.close()

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值