python爬虫(机器学习数据集的制作方式之一)

   好多python学习的书籍,最后一章,都会以python爬虫作为收尾的考核学习。

在我看来,这个只是机器学习的开始。

因为现在主流的 统计机器学习,都是需要训练集的。而训练集的收集,除了在网上找一些别人已经收集好的。还需要自己能够收集数据! 

自己的训练网络,自己的数据适应性肯定是最好的。如果用别人的 训练集,还得按照别人的训练集是否有Label ,来确定自己是否为有监督模型。  总之!自己收集自己想要的数据集才是王道!

那爬虫是如何运作的呢?

先解释我们现在的浏览器的运作流程和简单原理

      1.首先你的电脑的浏览器,看作是客户端(信息使用者)

      2.而你想访问的网址,他的 信息储存的地方是 服务端(信息管理者)

      3.当你填入网址的时候,就是由客户端向服务端发送申请。

      4.服务端审核申请,如果符合条件,就将信息发送给客户端。 (信息是该网站的源代码——html代码)

      5.本地浏览器解释翻译HTML代码,然后转换成我们看的懂的 形式呈现出来。

爬虫的原理与其类似,网络爬虫——web spider。就好比一个蜘蛛,可以爬向蛛网的 一个节点,然后可以从该节点爬到和其链接的所有节点。

 所以爬虫的流程如下:

     1.找出初始网址的 地址,获取其源代码。然后可以从该网站源代码中,访问其中包含的其他网站,然后获取他们的源代码。如此循环。(有权限的 情况下)

      2.然后根据你做输入的 表格,来对你所获得的信息加以筛选和处理。


python爬虫所需要的库  urllib2(python2),   urllib2(python3),beautifulsoap(早就没有在更新库),bs4(beautifulsoap4即前者升级版),re库(正则化方式,较为落后,没有bs4方便,但是好多BS4满足不了的地方,他可以满足。可以学习一哈)

具体的学习网站在这里:

       urllib- python2:   https://docs.python.org/3/howto/urllib2.html

       urllib -python3:   https://docs.python.org/2/howto/urllib2.html

       bs4-python:       http://www.jb51.net/article/65287.htm

        re-python :        https://www.cnblogs.com/vamei/archive/2012/

  • 3
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值