url 收集

最新推荐文章于 2023-09-25 10:39:02 发布

pipixia233333

最新推荐文章于 2023-09-25 10:39:02 发布

阅读量841

点赞数

分类专栏： web python开发

本文链接：https://blog.csdn.net/qq_41071646/article/details/88030326

版权

web python开发专栏收录该内容

15 篇文章 0 订阅

订阅专栏

这一段时间压力有点大看了一些web 学了一些基本的sql注入文件上传还有抓包然后就被安排了让搞Wx 这谁顶得住啊

不过还是先看了看 python 其中感觉python 爬虫挺好玩的

但是怎么说呢爬虫现在看起来应该也算是web的一部分了个人感觉web安全也应该学一下爬虫

但是现在web安全还没有怎么会所以玩玩web 看看python 挺好玩的没事感觉可以写一些好玩的东西·~~~~~

然后开始今天的正题

URL收集

参考资料 ichunqiu Python安全工具开发应用

用到的库

import requests
import sys
import threading
from bs4 import BeautifulSoup as bs
import re
import time

语言 python 3.7

然后这里的url 收集是指假如想搜索一个关键字把百度提供的所有网址都取出来就可以了

这里不得不提一个强大的库

BeautifulSoup 那是真的好用

假如想得到 td标签的 1 5 8 次序

那么只需要

soup=bs(r.content,'lxml')

urlstring=soup.find_all(name='td')

for i in [1,5,8]:

urlstring[i].string

即刻

就可以了那是真的好用~~~~~

然后这里没有用到多线程原因其实也很简单多线程处理比较复杂先不用多线程了

网址标签确定的地方也很好看的出来

然后我们再看 url

https://www.baidu.com/s?wd=Python&pn=10

wd 代表的就是我们的关键字而 0 10 20 代表页数

然后然后我们再次确定一次返回200 的正常码我们再打印

#!/user/bin/env python
# -*- coding: utf-8 -*-

import requests
import sys
import threading
from bs4 import BeautifulSoup as bs
import re
import time

header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:65.0) Gecko/20100101 Firefox/65.0'}

def test(word):
    for i in range(0,760,10):#每次 循环十次就够了
        time.sleep(5)
        url=('https://www.baidu.com/s?wd=%s&pn=%s')%(word,str(i))
        print (i)
        r=requests.get(url=url,headers=header)
        soup=bs(r.content,'lxml')
        urls=soup.find_all(name='a',attrs={'data-click':re.compile(('.')),'class':None})
        for url in urls:
            time.sleep(5)
            r_get=requests.get(url=url['href'],headers=header,timeout=8)
            if r_get.status_code==200:
                print (url['href'])
        



if __name__=='__main__':
    if len(sys.argv)!=2:
        print ('Enter:%s word',sys.argv[0])
        sys.exit(-1)
    else:
        test(sys.argv[1])

别问我为什么时间设置的那么长自己可以设置的短一点我后面被限制了

所以 ~~~~~

pipixia233333

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
url 收集

这一段时间压力有点大看了一些web 学了一些基本的sql注入文件上传还有抓包然后就被安排了让搞Wx 这谁顶得住啊不过还是先看了看 python 其中感觉python 爬虫挺好玩的但是怎么说呢爬虫现在看起来应该也算是web的一部分了个人感觉web安全也应该学一下爬虫但是现在web安全还没有怎么会所以...
复制链接

扫一扫

专栏目录