python爬虫自学宝典——引言

在下本身才疏学浅,也谈不上多么多么牛逼,就是想做一些自己喜欢的事情。比如学习,看书,旅游等等。
python爬虫自学宝典就是给自己做的手稿,看的人若是能得到启发,那是在下之幸;若得不到,那是在下的手笔,才学还没有到一定高度。此文章,仅仅供阁位消遣阅读,本人也是一个大学生,无非就是喜欢学点新奇的东西而已。若是有不对的地方,还望各位大佬一一斧正。若是有疑惑的朋友,可以在下方评论区留言,咱们可以交流交流。

Scrapy简介

数据从何而来?又去往何处?很多和我一样的大学生,很少思考这个问题。网上如此多的数据,是怎么形成的?即使全球70多亿人口全是互联网用户,每个人不停的生产数据信息,那也不是现在互联网上数据应有的量。简而言之,我们人类亲手造的数据信息,不考虑数据再生数据的情况下,犹如地球和太阳相比,远远无法形成现在互联网数据量的规模。
Scrapy技术,也称爬虫技术,就是为收集数据,处理分析数据,再生数据而生的。例如百度,百度就是超级大爬虫,不然用户输入信息,百度何以检索到准确的信息反馈给用户呢?
当然,学习Scrapy不能仅仅局限于scrapy,Java也有实现爬虫的技术,python也可以通过urllib和re实现爬虫项目。但是目前据我所知,Scrapy是最简便,最易用的爬虫技术。
回答第一个问题:爬虫究竟是什么?
答案:爬虫就是检索数据,从互联网上抓取自己想要的数据,并把这些数据存入你想要存入的位置,例如数据库,文档系统等的一种程序工具。
回答第二个问题:爬虫能干什么?
答案:爬虫可以将爬取的数据上传给使用爬虫的人,将爬虫爬取的数据进行处理分析,从而产生有益于使用爬虫技术的人的数据。简而言之,就是爬数据,自己想干嘛就干嘛。
回答第三个问题:爬虫犯法吗?
答案:爬虫不违法,违法的是不遵从网站的爬虫协议,对网站造成负担,对正常用户造成影响。

爬虫的核心工作

1、通过网络向制定的URL发送请求,获取服务器的响应。
2、使用某种技术(正则表达式,Xpath等)提取页面的信息。
3、高效的识别响应页面中的链接信息,顺着这些链接递归执行上述第一、二步。
4、使用多线程有效的管理网络通信交互。
注:使用正则表达式虽然可以实现核心工作,但是正则表达式的效率没有Xpath高,所以我推荐用XPATH来进行爬取数据。

总结

爬虫仅仅是一门技术,学爬虫没有想的那么难,只要掌握好框架,就可以顺利运用爬虫技术。但我还是坚信一点,知道怎么用是不够的,要知道他的运行机制,基础架构是非常重要的。本人也不太懂他的基础架构,因为本人也是正在学习这些东西。运行机制,我还是懂的,欢迎看本人接下来的文章。
引用评书中的一句话就是:欲知后事如何,且听下回分解

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值