爬虫学习[1]
久不学矣,抓紧时间学习会。
最近打算学爬虫,并进行些小兼职检验水平,以博客进行记录。
参考 《Python 爬虫开发 从入门到实战(微课版)》
什么是爬虫
所谓爬虫,其本质是一种计算机程序,它的行为看起来就像是蜘蛛在网上面爬行一样,顺着互联网这个“网”,一条线一条线地“爬行”。所以爬虫在英文中又叫作“Spider”,正是蜘蛛这个单词。
大家都有这样的经历,浏览网页时,看到精美的图片,比如"日出",想进行保存,但是图片太多了,一张一张下很麻烦。人都是喜欢偷懒的,尤其是讨厌机械性的工作,计算机程序往往是为了减少人类工作量的,于是人们想到,可以使用计算机程序模拟人类的点击行为,比如模拟一次次的保存图片操作。这类的程序往往称为“爬虫”。
爬虫可以做什么
1.收集数据
爬虫可以用来收集数据。这也是爬虫最直接、最常用的使用方法。由于爬虫是一种程序,程序的运行速度极快,而且不会因为做重复的事情就感觉到疲劳,因此使用爬虫来获取大量的数据,就变得极其简单和快捷了。
2.尽职调查
所谓的尽职调查,一般是指投资人在投资一个公司之前,需要知道这个公司是否如他们自己所描述的一样尽职尽责地工作,是否有偷奸耍滑、篡改数据、欺骗投资人的嫌疑。在过去,尽职调查一般通过调查目标公司的客户或者审计财务报表来实现。而有了爬虫以后,要做尽职调查就方便很多了。
3.刷流量和秒杀
刷流量是爬虫自带的属性,而通过爬虫进行秒杀也很好理解。
爬虫主要是为了爬取有用的信息,而在无边无际的互联网中信息是极其庞大的,这就需要我们进行查找,在python中有最基本的find函数,但其功能与普适性都难以满足实际情况,这时就需要使用正则表达式了。
正则表达式
使用正则表达式有如下步骤
- 寻找规律。
- 使用正则符号表示规律
- 提取信息。