爬虫
L·Lawliete
Baby I don't love you very much
展开
-
初识网络爬虫
1.什么是爬虫?爬虫能干什么?爬虫又称为网络爬虫。可以按照指定的规则爬取网络上的信息。2.网络爬虫的分类:通用网络爬虫聚焦网络爬虫增量式网络爬虫深层网络爬虫等类型3.深层网络爬虫深层网络爬虫主要通过6个基本功能的模块和2个爬虫内部数据结构6个基本功能的模块:爬行控制器解析器表单分析器表单处理器响应分析器LVS控制器2个爬虫内部数据结构:URL列表LVS表 (表示...原创 2019-07-19 23:50:45 · 426 阅读 · 0 评论 -
请求方式
实现HTTP请求常见的三种方式urllib urllib3 requestsurrlib模块是python自带的模块. 在这个模块中提供了urlopen()方法,通过该方法发送网络请求来获取数据。urllib模块提供了很多子模块:通过urllib.request模块实现发送请求并读取网页内容(通过get请求方式获取百度的网页内容):# 通过u...原创 2019-07-20 12:28:56 · 262 阅读 · 0 评论 -
代理分类
1.根据协议区分:2.根据匿名程度区分①高强度匿名代理:会将数据包原封不动的转发,在服务端看来就好像真的是一个普通客户端在访问,而记录的IP是代理服务器的IP②普通匿名代理:会在数据包上做一些改动,服务端上有可能发现这是个代理服务器,也有一定几率追查到客户端的真实IP,代理服务器通常会加入的HTTP头有HTTP_VIA和HTTP_X_FORWARDED_FOR③透明代理:不但改动了...原创 2019-07-26 10:16:38 · 374 阅读 · 0 评论