好多python学习的书籍,最后一章,都会以python爬虫作为收尾的考核学习。
在我看来,这个只是机器学习的开始。
因为现在主流的 统计机器学习,都是需要训练集的。而训练集的收集,除了在网上找一些别人已经收集好的。还需要自己能够收集数据!
自己的训练网络,自己的数据适应性肯定是最好的。如果用别人的 训练集,还得按照别人的训练集是否有Label ,来确定自己是否为有监督模型。 总之!自己收集自己想要的数据集才是王道!
那爬虫是如何运作的呢?
先解释我们现在的浏览器的运作流程和简单原理:
1.首先你的电脑的浏览器,看作是客户端(信息使用者)
2.而你想访问的网址,他的 信息储存的地方是 服务端(信息管理者)
3.当你填入网址的时候,就是由客户端向服务端发送申请。
4.服务端审核申请,如果符合条件,就将信息发送给客户端。 (信息是该网站的源代码——html代码)
5.本地浏览器解释翻译HTML代码,然后转换成我们看的懂的 形式呈现出来。
爬虫的原理与其类似,网络爬虫——web spider。就好比一个蜘蛛,可以爬向蛛网的 一个节点,然后可以从该节点爬到和其链接的所有节点。
所以爬虫的流程如下:
1.找出初始网址的 地址,获取其源代码。然后可以从该网站源代码中,访问其中包含的其他网站,然后获取他们的源代码。如此循环。(有权限的 情况下)
2.然后根据你做输入的 表格,来对你所获得的信息加以筛选和处理。
python爬虫所需要的库 urllib2(python2), urllib2(python3),beautifulsoap(早就没有在更新库),bs4(beautifulsoap4即前者升级版),re库(正则化方式,较为落后,没有bs4方便,但是好多BS4满足不了的地方,他可以满足。可以学习一哈)
具体的学习网站在这里:
urllib- python2: https://docs.python.org/3/howto/urllib2.html
urllib -python3: https://docs.python.org/2/howto/urllib2.html
bs4-python: http://www.jb51.net/article/65287.htm
re-python : https://www.cnblogs.com/vamei/archive/2012/