Python网络爬虫与信息提取
是星子吖
计算机研究生一枚,努力做个萌萌的程序媛。愿成为一颗星星,有棱有角熠熠生辉。
展开
-
规则:网络爬虫的“盗亦有道”
网络爬虫引发的问题网络爬虫的尺寸爬取网页玩转网页小规模,数据量小 爬取速度不敏感 Requests库爬取网站爬取系列网站中规模,数据规模较大 爬取速度敏感 Scrapy库爬取全网大规模,搜索引擎 爬取速度关键 定制开发网络爬虫的“性能骚扰”Wed服务器默认接收人类访问受限于编写水平和目的,网络爬虫将会为Wed服务器带来巨大的资源开销网络爬虫的法律风险服务器上的数据有产权归属网络爬虫获取数据后牟利将带来法律风险网络爬虫的隐私泄露网络爬虫可能..原创 2020-11-13 22:52:59 · 261 阅读 · 0 评论 -
规则:Requests库主要方法解析
requests.request(method,url,**kwargs)methor:请求方式r=requests.request('GET',url,**kwargs)r=requests.request('HEAD',url,**kwargs)r=requests.request('POST',url,**kwargs)r=requests.request('PUT',url,**kwargs)r=requests.request('PATCH',url,**kwargs)原创 2020-10-31 19:48:25 · 142 阅读 · 0 评论 -
规则:HTTP协议及Requests库方法
HTTP协议HTTP,HypertextTransferProtocol,超文本传输协议。HTTP是一个基于“请求与相应”模式的、无状态的应用层协议HTTP协议采用URL作为定位网络资源的标识,URL格式如下:http://host[:port][path]host:合法的Internet主机域名或IP地址port:端口号,缺省端口为80path:请求资源的路径HTTPURL实例:http://www.bit.edu.cnhttp://220.181.111.188/d...原创 2020-10-18 13:48:29 · 195 阅读 · 0 评论 -
规则:爬取网页的通用代码框架
理解Requests库的异常requests.ConnectionError网络连接错误异常,如DNS查询失败、拒绝连接等requests.HTTPErrorHTTP错误异常requests.URLRequiredURL缺失异常requests.TooManyRedirects超过最大重定向次数,产生重定向异常requests.ConnectTimeout连接远程服务器超时异常requests,Timeout请求URL超时,产生超时异常理解Response原创 2020-10-18 09:58:16 · 127 阅读 · 0 评论 -
规则:Requests库入门的get()方法
requests.get(url,params=None,**kwargs)url:拟获取页面的 url 链接params:url中的额外参数,字典或字节流格式,可选**kwargs:12个控制访问的参数Response对象import requestsr=requests.get("http://www.baidu.com")print(r.status_code)200type(r)requests.models.Responser.headers...原创 2020-10-17 10:51:06 · 330 阅读 · 0 评论 -
前奏:Python语言开发工具选择
掌握定向网络数据爬取和网页解析的基本能力Requests自动爬取HTML页面 自动网络请求提交robots.txt网络爬虫排除标准BeautifulSoup解析HTML页面Projects实战项目A/BRe正则表达式详解 提取页面关键信息Scrapy*网络爬虫原理介绍 专业爬虫框架介绍常用的PythonIDE工具文本工具类IDE 集成工具类IDE IDLE PyCharm Notepad++ Wing...原创 2020-10-16 23:42:39 · 133 阅读 · 1 评论