2、爬虫的内容
(1)爬到的数据可能是:
表格
文本
图片+文本(二手车信息、京东网商品信息)
(2)哪些不可以被爬
3)搜索引擎(baidu、google、bing)
百度是一个爬虫
百度爬不到新浪微博内部的新闻,也爬不到淘宝网的产品信息(涉及服务器的通行证问题)
3、服务器的通行证Robots.txt
服务器通过Robots.txt来限定爬虫可以爬哪些内容
淘宝网的爬虫通行证:禁止百度爬去产品信息,但是却允许google和bing
4、爬虫的途径
(1)解析源代码
要熟悉html语言
(2)访问API
eg:当一个app,需要微信登陆信息,就要通过微信设置的API访问
但通过API访问可能受到服务器次数限制等等的影响
通过API获取数据:
5、可能遇到的限制
IP封禁
服务器可能禁止某个IP爬取数据,解决方法:找代理(桥接)服务器
验证码
12306的验证码常常连人都无法通过,就是为了防止黄牛的爬虫进行机器抢票
需要登陆,检验cookie
二、相关概念