puython爬虫基础（一）

最新推荐文章于 2022-03-26 14:40:41 发布

qq_37730771

最新推荐文章于 2022-03-26 14:40:41 发布

阅读量575

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37730771/article/details/80662789

版权

本文介绍了Python爬虫的基础知识，包括利用urllib2获取网页源码，探讨了直接获取数据可能暴露IP的问题。接着讲解了User-Agent的概念，用于伪装客户端请求，避免被识别。推荐使用工具进行抓包，并展示了如何抓取和修改User-Agent。最后，通过实例讲解了GET请求的使用，以及爬取贴吧页面的基本思路。

摘要由CSDN通过智能技术生成

首先我们先学会urllib2的类库的使用

下面是代码

返回的数据就是网站的源码，下面是一部分

看到百度一下我就只知道我们成功了

这样虽然能直接获得网页源码可是也暴露除了我们的ip，对于我们以后的开发不利

我们都知道用户每一次访问网页的时候都会先上代理服务器发送然后在由代理服务器向网站服务器发送，然后依次传到用户端上，这时就有了怎区别服务器返回的数据一定是你的呢，这时候就出现了userAgent的概念，学javaee的都知道，我们每一次访问网站客户端都会想服务端发送一个请求头，把一些必要的信息交给服务器，这个useragent就在这请求头中，

详细信息请参考这篇文章

这里我用了一个工具叫做

<

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

qq_37730771 CSDN认证博客专家 CSDN认证企业博客

码龄8年

13: 原创

137万+: 周排名

52万+: 总排名

2万+: 访问

: 等级

281: 积分

2: 粉丝

1: 获赞

1: 评论

5: 收藏

私信

关注

分类专栏

python 1篇

最新评论

在Apache中配置php模块
iz123: 为什么我的还是不对啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。