如何在一周内学会爬虫

最新推荐文章于 2021-01-20 15:44:09 发布

喜欢安静的程序猿

最新推荐文章于 2021-01-20 15:44:09 发布

阅读量286

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_39363245/article/details/108771933

版权

爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

爬虫的一周学习计划：

下图是爬虫的准备

爬虫爬取快代理案例：

网站的url=“https://www.kuaidaili.com/free/”

这里多说一句,如果缺少爬虫项目实战案例教程可以加我的python资源交流裙:巴衣久二五寺久寺二（数字的谐音转换下可以找到了),一起交流python资源,裙里还有阿里的大牛,还可以和阿里的大牛一起讨论,学习.

这次爬取我们采用的是requests第三方库

Requests 是一个 Python 的 HTTP 客户端库,我们可以用它得到HTML源码

复制代码

import requests
url="https://www.kuaidaili.com/free/"
headers={
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36"
}
#这里进行了头部的伪装
res=requests.get(url,headers=headers)
res.encoding="utf-8"
html=res.text

复制代码

之后我们用xpath实现标签的遍历获取到我们需要的内容

复制代码

e=etree.HTML(html)
ip_list=e.xpath("//tr/td[1]/text()")
port_list=e.xpath("//tr/td[2]/text()")
#采用zip迭代的方式打印输出
for ip,port in zip(ip_list,port_list):
    str="ip:"+ip+"\t端口号："+port
    print(str)

复制代码

本文首发于python黑洞网，csdn同步更新

喜欢安静的程序猿

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
如何在一周内学会爬虫

爬虫的一周学习计划：下图是爬虫的准备爬虫爬取快代理案例：网站的url=“https://www.kuaidaili.com/free/”这里多说一句,如果缺少爬虫项目实战案例教程可以加我的python资源交流裙:巴衣久二五寺久寺二（数字的谐音转换下可以找到了),一起交流python资源,裙里还有阿里的大牛,还可以和阿里的大牛一起讨论,学习.这次爬取我们采用的是requests第三方库Requests 是一个 Python 的 HTTP 客户端库,我们可以用它得到HTML源码.
复制链接

扫一扫