![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫系列
文章平均质量分 56
流浮生
要成为一个厉害的人
展开
-
多进程构建 IP 代理池
IPProxy_Pool🚀 Building Ip Proxy Pool相关知识点multiprocessing 【爬取数据】threading【校验数据有效性】lxml【解析 html】Project Structure├── LICENSE├── Makefile # make 服务启动命令├── README.md├── app.py # crawl 启动入口├── config.py # crawl config├── da原创 2022-04-05 22:23:14 · 1241 阅读 · 0 评论 -
使用 python 完成 IP 存活检测
IP 存活检测最近在构建自用 IP 池,其中在获取 IP 后筛选存活 IP方法做如下总结。主要有三种方式:使用 telnetlib 模块使用 urllib 模块使用 request 模块下面就上面三种方式使用简单介绍:使用 telnetlib 模块检测 IP 存活性(不推荐)import telnetlibip = '195.170.38.230'port = '8080'try: res = telnetlib.Telnet(ip, port, timeout=10)原创 2020-11-24 22:38:12 · 15703 阅读 · 0 评论 -
python 构建 ip 代理池以及简单的应用
背景摘要由于最近在研究爬虫相关知识,有时在频繁获取(爬取)网站数据时会出现 ip 被限制的情况导致无法及时获取想要的数据,因此想着该搞个 ip proxy pool 啦,啥也不说开始干呗。代码实现import reimport jsonimport requestsimport urllibfrom lxml import etreeurl = 'https://raw.githubusercontent.com/fate0/proxylist/master/proxy.list'c原创 2020-11-21 09:08:49 · 1128 阅读 · 0 评论 -
Python 爬取拉勾招聘信息
Python 爬取拉勾招聘信息故事背景最近有个好哥们啊浪迫于家里工资太低,准备从北方老家那边来深圳这边找工作,啊浪是学平面设计的知道我在深圳这边于是向我打听深圳这边平面设计薪资水平,当时我有点懵逼这个行业不熟悉啊咋搞呢,准备打开招聘网站先看看再说打开网站输入招聘职位发先量还挺大,这样慢慢看不行啊效率太低啦,咋是程序员啊直接把数据拉下来不就行啦于是有啦这篇博客。技术实现用到的库import osimport jsonimport urllibimport requests页面分析数据地址原创 2020-11-14 10:14:12 · 547 阅读 · 0 评论 -
python3 urlencode 和 urldecode 使用
python3 urlencode 和 urldecode故事背景当我们在浏览器搜索内容时会发现浏览器会自动的将我们输入的内容转化为带有 很多% 的地址如下所示:https://www.baidu.com/s?wd=%E4%B8%BA%E4%BB%80%E4%B9%88&rsv_spt=1&rsv_iqid=0xeaa7d7410002e421&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&tn=baid原创 2020-11-11 04:26:36 · 959 阅读 · 0 评论