以下所述都是小编个人愚见,不带有任何其他色彩
爬虫菜鸟的修炼之路
什么是网络爬虫
- 很多时候我问身边的人当今是什么样的社会,有人说是互联网时代,有人说是互联网+时代,有人说是人工智能时代,有人说是大数据时代。再次小编更倾向于后者认为是大数据时代。
大数据时代最看重的就是数据。哪里的数据资源最丰富,毫无疑问自然就是互联网啦!而爬虫就是一个从互联网爬取数据的工具,有了它我们将获得海量的数据。好了废话不多说,开始我们的爬虫修炼之路吧
爬虫学习主要有以下几条:
爬虫抓取数据要分两种,一种是抓取静态网页数据,一种是抓取动态网页数据。
-
如何抓取静态HTML网页源码:
1.1 HTTP请求处理,urllib、urllib2[python2中使用python3中使用urllib.request]、request。这些请求经过处理之后可以像浏览器一样发送网络请求从而获取响应的数据。
1.2 解析库的使用
就目前来看,大多数爬虫工作者都较常用以下三类解析库,正则,xpath,BeautifulSoup.其中正则是python中自带解析库,而后面几位则需要自己下载,当然了下载也是非常简单的。小编在这里最喜欢用的xpath,各位看官可以根据自己的喜好随意选择。 -
如何抓取动态网页的数据:
常用的动态页面采集使用Selenium+PhantomJS:来模拟真实的浏览器进行数据的加载 -
Scrapy框架:
高性能高配置,数据下载非常快,同时提供数据存储,数据下载和规则匹配等功能 -
爬虫与反爬虫之间斗争