简单粗暴的提取西刺IP和端口（附源码，爬虫小白，求勿喷）

最新推荐文章于 2022-09-08 16:28:24 发布

赶在日落之前

最新推荐文章于 2022-09-08 16:28:24 发布

阅读量511

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lzz781699880/article/details/81072022

版权

import urllib
import re
import time
from urllib import request
from urllib import parse
import chardet
proxy = {"http": "123.207.30.131:80"}
proxy_support = request.ProxyHandler(proxy)
opener = request.build_opener(proxy_support)
request.install_opener(opener)
url = "http://www.xicidaili.com/nn"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"}
patternIP = re.compile(r'(?<=<td>)[\d]{1,3}\.[\d]{1,3}\.[\d]{1,3}\.[\d]{1,3}')
patternPORT = re.compile(r'(?<=<td>)[\d]{2,5}(?=</td>)')
req = request.Request(url, headers=headers)
response = request.urlopen(req)
html = response.read()
findIP = re.findall(patternIP,str(html))
findPORT = re.findall(patternPORT,str(html))
charset = chardet.detect(html)['encoding']
IP_data =[]
for i in range(len(findIP)):
     findIP[i] = findIP[i] + ":" + findPORT[i]
     IP_data.extend(findIP)
print(charset)
print(IP_data)

赶在日落之前

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

赶在日落之前 CSDN认证博客专家 CSDN认证企业博客

码龄8年

185: 原创

12万+: 周排名

14万+: 总排名

91万+: 访问

: 等级

7209: 积分

876: 粉丝

261: 获赞

98: 评论

760: 收藏

私信

关注

热门文章

分类专栏

爬虫 34篇
前端js 1篇
爬虫2 28篇
数据库 45篇

最新评论

爬虫出现空列表或者长度为0是怎么回事？
cornflowerzbq: 话说要是它还是个动态的就是每个页面随滚轮向下还在更新，最后也要一条条复制下来嘛
Python 爬取新浪财经7x24
m0_62267300: 太6了
MySQL和SqlServer数据库列名是关键字怎么办？该如何操作和查询？
数据工具人: 加个引号成了字符串了
解决json.decoder.JSONDecodeError: Expecting value: line 1 column 11 (char 12)报错
weixin_46486995: { "result":[ "<div class=\"jcse-result-box news-result\">\r\n <div class=\"jcse-news-title\">\r\n\t\t<span class=\"typeTtitle\">\r\n\t\t<input type=\"hidden\" value='其他' class=\"tagclass\" />\r\n <input type=\"hidden\" value='JCMS' class=\"signclass\" />\r\n\t\t</span>\r\n <a class=\" mqy_click_button \" mqy_name=\"search_list \" target=\"_blank \" href=\"https://www.ndrc.gov.cn/xxgk/zcfb/tz/202203/t20220315_1319318.html?code=&state=123\">\r\n\t\t\t关于做好2022年享受税收优<em>惠</em>政策的集成电路<em>企</em>业或项目、软件<em>企</em>业清单制定工作有关要求的通知\r\n </a>\r\n\t\t\r\n </div>\r\n <div class=\"jcse-news-abs\">\r\n <div class=\"jcse-news-abs-content\" style=\"text-indent:2em;\">\r\n\t\t\t\r\n </div>\r\n <div class=\"jcse-news-other-info\">\r\n <div class=\"website-source\">\r\n\t\t\t\t<span class=\"jcse-news-date jcse-news-date2\" style=\"color:#0987FF;margin-right:15px;float:left; 错误是这 line 4 column 1 (char 6) 可以麻烦您一下看看那个不能识别吗
pyqt聊天程序简单制作
hqtian2: 没完整的吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。