爬虫学习[1]


久不学矣,抓紧时间学习会。
最近打算学爬虫,并进行些小兼职检验水平,以博客进行记录。
参考 《Python 爬虫开发 从入门到实战(微课版)》

什么是爬虫

所谓爬虫,其本质是一种计算机程序,它的行为看起来就像是蜘蛛在网上面爬行一样,顺着互联网这个“网”,一条线一条线地“爬行”。所以爬虫在英文中又叫作“Spider”,正是蜘蛛这个单词。
大家都有这样的经历,浏览网页时,看到精美的图片,比如"日出",想进行保存,但是图片太多了,一张一张下很麻烦。人都是喜欢偷懒的,尤其是讨厌机械性的工作,计算机程序往往是为了减少人类工作量的,于是人们想到,可以使用计算机程序模拟人类的点击行为,比如模拟一次次的保存图片操作。这类的程序往往称为“爬虫”。

爬虫可以做什么

1.收集数据

爬虫可以用来收集数据。这也是爬虫最直接、最常用的使用方法。由于爬虫是一种程序,程序的运行速度极快,而且不会因为做重复的事情就感觉到疲劳,因此使用爬虫来获取大量的数据,就变得极其简单和快捷了。

2.尽职调查

所谓的尽职调查,一般是指投资人在投资一个公司之前,需要知道这个公司是否如他们自己所描述的一样尽职尽责地工作,是否有偷奸耍滑、篡改数据、欺骗投资人的嫌疑。在过去,尽职调查一般通过调查目标公司的客户或者审计财务报表来实现。而有了爬虫以后,要做尽职调查就方便很多了。

3.刷流量和秒杀

刷流量是爬虫自带的属性,而通过爬虫进行秒杀也很好理解。

爬虫主要是为了爬取有用的信息,而在无边无际的互联网中信息是极其庞大的,这就需要我们进行查找,在python中有最基本的find函数,但其功能与普适性都难以满足实际情况,这时就需要使用正则表达式了。

正则表达式

使用正则表达式有如下步骤

  1. 寻找规律。
  2. 使用正则符号表示规律
  3. 提取信息。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值