python-爬虫-前言

  本人半道出家,自学python,才疏学浅,如有错误的地方,还望大神纠正

  所谓爬虫,就是一段代码,可以爬取网页信息的代码,可以说未来的世界,数据就是财富,可见数据的重要性,但怎样获得数据是一个问题,而爬虫是一个很好的选择。

  我只接触过python,所以在此写写学习python及爬虫的一些东西

  学习写爬虫之前,我们要了解几个东西,前端知识(css、ajax、javascript等),解析工具(pyquery、beautifulsoup、Xpath等),数据库(mysql、MongoDB、redis等)、框架(pyspider、scrapy)、库(selenium)等等。

  以上所列举的东西,是学习爬虫必备的,而且只少不多,因为现在的爬虫涉及面很广,不光可以抓取网页,还可以抓取APP的源码信息,而且还要充分考虑反爬虫技术(验证码、代理问题等)。上面所列举的知识,我相信大家在网上都可以搜到免费教程,毕竟我就是这么学的。

  那么爬虫爬取到的原始信息到底是什么呢?其实,爬虫爬取到的原始信息就是网页的源代码,如果有chrome浏览器的同学,可以随便进入一个网页,比如百度,然后按F12,对,没错,出现的那一列列你看不懂的东西就属于源代码,而且现在的反爬虫技术很成熟,有时候你看到的可能还不是源代码,是用javascript渲染过的网页,更有可能加上了ajax请求的网页,所以,抓取源代码其实不是一件容易的事儿,更别提别人再给你来个登录验证。

  假设我们经过上述一步步的爬取,通过了重重险境,终于爬下来了源代码,你会发现,还没啥用,因为你要的东西藏在这些源代码中,你要想办法把你想要的东西从源代码中解析出来,就像一堆烂苹果里挑出几个好的,你是不是得戴一副好眼镜,我们的解析工具,就好比一副好眼镜,就是上面说的pyquery、beautifulsoup、Xpath等解析工具。

  最后,我们把需要的东西也爬出来的,可是没地方放啊,这就需要我们的数据库了,就我来说,我只用过mysql和MongoDB,其实MongoDB还算相对简单一点,就是配置的时候有点麻烦,因为我今天就遇到了一个我都难以启齿的问题,新版的MongoDB默认是不需要验证的,我手贱,配置的时候加了验证,等到我要存取数据的时候,发现死活连不上,弄了一天,才发现这个问题。

  好了,以上,就是我对爬虫的理解,我目前也在学习中,自学的路很长,我从来不相信几个月就可以学会人家大学4年还没学明白的东西,一旦决定学,就要做好每时每刻应对困难的准备,这是个持久战,不光是学python,世界上任何一门知识都是这样,肯付出时间,肯专研,才有机会取胜,我目前打算学完了爬虫,当然,只是初步的知识,深度的学习肯定要通过以后的工作来慢慢积累,学完了初步的爬虫知识,接着就涉及数据挖掘的知识,因为未来的世界,一定是数据为王的,虽然学的不好,但也要慢慢积累,我大学的专业和我读研的专业以及我现在在学的知识,这三者完全没有关系,但是我相信,学知识总会派上用场,说不定哪天,我就可以转型去搞技术了呢,哈哈哈,好了,就写到这。

posted on 2018-09-12 22:08 houziaipangqi 阅读( ...) 评论( ...) 编辑 收藏

转载于:https://www.cnblogs.com/houziaipangqi/p/9637707.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值