![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python爬虫
bao_120973681
允许自己笨,但不允许自己不努力。
展开
-
什么是Urllib库?
Urllib是Python提供的一个用于操作URL的模块。在Python2.X中,有Urllib库,也有Urllib2库,但是在最新的Python3.X中,将Urllib2合并到了Urllib中,这个库在我们爬取网页的时候会经常用到。升级合并后,模块中的包的位置变化的地方较多,以下是一些常见的变动:在Python2.X中使用import urllib2,在Python3.X中会用到imp...原创 2018-11-12 23:56:01 · 6068 阅读 · 0 评论 -
Python3.x爬虫---代理服务器的设置
当使用同一个IP去爬取同一个网站的网页时,次数多了或者时间久了,该网站服务器就会对这个IP进行屏蔽,而这也是我们爬虫程序必须要解决的一个问题。如何去解决这个问题呢?如果有HTTP基础,就知道有一种叫做代理服务器的东西,而我们也可以使用这个代理服务器解决上述问题。基本思路:在爬取网页的时候,在对方服务器上显示的是别人的IP地址,那么,即使对方将显示出来的这个IP地址进行屏蔽,那么我们可以再次...原创 2018-11-16 23:56:35 · 1100 阅读 · 0 评论