Python网络爬虫与信息提取
是星子吖
计算机研究生一枚,努力做个萌萌的程序媛。愿成为一颗星星,有棱有角熠熠生辉。
展开
-
规则:网络爬虫的“盗亦有道”
网络爬虫引发的问题 网络爬虫的尺寸 爬取网页玩转网页 小规模,数据量小 爬取速度不敏感 Requests库 爬取网站爬取系列网站 中规模,数据规模较大 爬取速度敏感 Scrapy库 爬取全网 大规模,搜索引擎 爬取速度关键 定制开发 网络爬虫的“性能骚扰” Wed服务器默认接收人类访问 受限于编写水平和目的,网络爬虫将会为Wed服务器带来巨大的资源开销 网络爬虫的法律风险 服务器上的数据有产权归属 网络爬虫获取数据后牟利将带来法律风险 网络爬虫的隐私泄露 网络爬虫可能..原创 2020-11-13 22:52:59 · 269 阅读 · 0 评论 -
规则:Requests库主要方法解析
requests.request(method,url,**kwargs) methor:请求方式 r=requests.request('GET',url,**kwargs) r=requests.request('HEAD',url,**kwargs) r=requests.request('POST',url,**kwargs) r=requests.request('PUT',url,**kwargs) r=requests.request('PATCH',url,**kwargs)原创 2020-10-31 19:48:25 · 154 阅读 · 0 评论 -
规则:HTTP协议及Requests库方法
HTTP协议 HTTP,HypertextTransferProtocol,超文本传输协议。HTTP是一个基于“请求与相应”模式的、无状态的应用层协议 HTTP协议采用URL作为定位网络资源的标识,URL格式如下:http://host[:port][path] host:合法的Internet主机域名或IP地址 port:端口号,缺省端口为80 path:请求资源的路径 HTTPURL实例: http://www.bit.edu.cn http://220.181.111.188/d...原创 2020-10-18 13:48:29 · 202 阅读 · 0 评论 -
规则:爬取网页的通用代码框架
理解Requests库的异常 requests.ConnectionError 网络连接错误异常,如DNS查询失败、拒绝连接等 requests.HTTPError HTTP错误异常 requests.URLRequired URL缺失异常 requests.TooManyRedirects 超过最大重定向次数,产生重定向异常 requests.ConnectTimeout 连接远程服务器超时异常 requests,Timeout 请求URL超时,产生超时异常 理解Response原创 2020-10-18 09:58:16 · 136 阅读 · 0 评论 -
规则:Requests库入门的get()方法
requests.get(url,params=None,**kwargs) url:拟获取页面的 url 链接 params:url中的额外参数,字典或字节流格式,可选 **kwargs:12个控制访问的参数 Response对象 import requests r=requests.get("http://www.baidu.com") print(r.status_code) 200 type(r) requests.models.Response r.headers ...原创 2020-10-17 10:51:06 · 339 阅读 · 0 评论 -
前奏:Python语言开发工具选择
掌握定向网络数据爬取和网页解析的基本能力 Requests 自动爬取HTML页面 自动网络请求提交 robots.txt 网络爬虫排除标准 BeautifulSoup 解析HTML页面 Projects 实战项目A/B Re 正则表达式详解 提取页面关键信息 Scrapy* 网络爬虫原理介绍 专业爬虫框架介绍 常用的PythonIDE工具 文本工具类IDE 集成工具类IDE IDLE PyCharm Notepad++ Wing ...原创 2020-10-16 23:42:39 · 144 阅读 · 1 评论