本文就初学者来说,教大家怎么爬虫。现学现卖,看完再自己操作操作就会了~我就是这么学的,分享给想用python爬虫的小伙伴:
放个懒人目录:
- 网络爬虫的行径
- URL初步的概念
- python与urllib2
- 合理爬数据的身份
- 以贴吧为例的小爬虫
- python爬虫
1.爬虫程序会高效且准确的拿到我们想要在网上获取的信息。不多说了,了解一下爬虫的行为:网页首页→读取网页内容→找到网页的其他链接→其他的网页首页…
也就是这样的循环,知道这个网站上面所有的网页都吃光。
2.URL的初步概念首先介绍一下浏览网页的基本过程:随便找个你要爬的地址
- 本地浏览器(客户端)--------请求-----→传智服务器
- 本地浏览器(客户端)←-----文件数据----传智服务器
- 本地浏览器(客户端)进行解析文件数据并且展现
3.python与urllib2
在下面的例子里面我用的是python2.7.x版本。这里我们需要的组件是:urllib2(它是pyt