python-爬虫-前言

最新推荐文章于 2023-04-13 17:26:08 发布

weixin_30609287

最新推荐文章于 2023-04-13 17:26:08 发布

阅读量288

点赞数

文章标签：爬虫 python javascript ViewUI

原文链接：http://www.cnblogs.com/houziaipangqi/p/9637707.html

版权

python-爬虫-前言

　　本人半道出家，自学python，才疏学浅，如有错误的地方，还望大神纠正

　　所谓爬虫，就是一段代码，可以爬取网页信息的代码，可以说未来的世界，数据就是财富，可见数据的重要性，但怎样获得数据是一个问题，而爬虫是一个很好的选择。

　　我只接触过python，所以在此写写学习python及爬虫的一些东西

　　学习写爬虫之前，我们要了解几个东西，前端知识（css、ajax、javascript等），解析工具（pyquery、beautifulsoup、Xpath等），数据库（mysql、MongoDB、redis等）、框架（pyspider、scrapy）、库（selenium）等等。

　　以上所列举的东西，是学习爬虫必备的，而且只少不多，因为现在的爬虫涉及面很广，不光可以抓取网页，还可以抓取APP的源码信息，而且还要充分考虑反爬虫技术（验证码、代理问题等）。上面所列举的知识，我相信大家在网上都可以搜到免费教程，毕竟我就是这么学的。

　　那么爬虫爬取到的原始信息到底是什么呢？其实，爬虫爬取到的原始信息就是网页的源代码，如果有chrome浏览器的同学，可以随便进入一个网页，比如百度，然后按F12，对，没错，出现的那一列列你看不懂的东西就属于源代码，而且现在的反爬虫技术很成熟，有时候你看到的可能还不是源代码，是用javascript渲染过的网页，更有可能加上了ajax请求的网页，所以，抓取源代码其实不是一件容易的事儿，更别提别人再给你来个登录验证。

　　假设我们经过上述一步步的爬取，通过了重重险境，终于爬下来了源代码，你会发现，还没啥用，因为你要的东西藏在这些源代码中，你要想办法把你想要的东西从源代码中解析出来，就像一堆烂苹果里挑出几个好的，你是不是得戴一副好眼镜，我们的解析工具，就好比一副好眼镜，就是上面说的pyquery、beautifulsoup、Xpath等解析工具。

　　最后，我们把需要的东西也爬出来的，可是没地方放啊，这就需要我们的数据库了，就我来说，我只用过mysql和MongoDB，其实MongoDB还算相对简单一点，就是配置的时候有点麻烦，因为我今天就遇到了一个我都难以启齿的问题，新版的MongoDB默认是不需要验证的，我手贱，配置的时候加了验证，等到我要存取数据的时候，发现死活连不上，弄了一天，才发现这个问题。

　　好了，以上，就是我对爬虫的理解，我目前也在学习中，自学的路很长，我从来不相信几个月就可以学会人家大学4年还没学明白的东西，一旦决定学，就要做好每时每刻应对困难的准备，这是个持久战，不光是学python，世界上任何一门知识都是这样，肯付出时间，肯专研，才有机会取胜，我目前打算学完了爬虫，当然，只是初步的知识，深度的学习肯定要通过以后的工作来慢慢积累，学完了初步的爬虫知识，接着就涉及数据挖掘的知识，因为未来的世界，一定是数据为王的，虽然学的不好，但也要慢慢积累，我大学的专业和我读研的专业以及我现在在学的知识，这三者完全没有关系，但是我相信，学知识总会派上用场，说不定哪天，我就可以转型去搞技术了呢，哈哈哈，好了，就写到这。