# -*- coding: utf-8 -*-
'''
爬虫流程:
1.确定需求
你需要爬取哪些数据
2.找到数据源地址
你需要爬取的那些数据在哪个链接中
3.观察链接规律
比如页面是否需要翻页
链接中有的参数可以不需要(了解)
4.发生请求并且获取响应数据转换成相应类型
发生请求:处理常见反爬虫(添加headers)(了解)
转换成相应类型:
json -->json()
html-->text
图片-->content (了解)
象json但不是json-->经过处理然后eval()或dict() (了解)
5.解析数据
提取出需要的数据
6.存储数据
爬下来的数据保存在文件中
'''
#https://www.jyshare.com/front-end/61/
#http://192.168.115.135/upload-labs-master/Pass-02/index.php?action=show_code
#http://192.168.115.135/upload-labs-master/Pass-03/helper.php?action=get_prompt
for i in range(1,4):
if i<10:
ix='0'+str(i)
else:
ix=i
url=f'http://192.168.115.135/upload-labs-master/Pass-{ix}/index.php?action=show_code'
import requests
response=requests.get(url).text #GET requests.get() POST requests.post
提示=requests.get('http://192.168.115.135/upload-labs-master/Pass-03/helper.php?action=get_prompt').text
#**************************************************************************
#/html/body/div[2]/div[1]/ul/li[1]/a
#/html/body/div[2]/div[1]/ul/li[2]/a
#/html/body/div[2]/div[2]/ol/li[1]/p
#/html/body/div[2]/div[2]/ol/li[3]/pre/code #源代码
from lxml import etree
res=etree.HTML(response) #初始化
s=res.xpath('/html/body/div[2]/div[2]/ol/li[3]/pre/code/text()')[0]
#**********************************************************************8
'''
1.打开文件 open('文件名','模式') r 读 w 写 b 二进制
2.操作文件 .read() .write()
3.关闭文件 .close()
'''
f=open(f'{ix}.txt','w',encoding='utf-8')
f.write(s+提示)
f.close()
爬虫实战-1
最新推荐文章于 2024-11-04 14:27:30 发布