![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网络爬虫专栏
文章平均质量分 89
小狐狸梦想去童话镇
A fox in pursuit of a rabbit.
展开
-
python网络爬虫——pyquery的使用(六)
python网络爬虫——pyquery的使用(六)pyquery的使用一、pyquery的介绍二、pyquery的使用1、初始化工作2、查找节点3、遍历4、获取信息5、节点操作6、伪类选择器pyquery的使用一、pyquery的介绍使用pyquery需要在Web和了解jQuery的基础上,使用该CSS选择器。二、pyquery的使用1、初始化工作使用pyquery初始化的方式有很多,传入的参数可以是字符串,也可以是URL和文件名,下面将一一介绍初始化方法。字符串html = '''<原创 2021-09-21 11:33:46 · 382 阅读 · 0 评论 -
python网络爬虫——Beautiful Soup的使用(五)
python网络爬虫——Beautiful Soup的使用(五)一、Beautiful Soup的介绍二、Beautiful Soup的使用1、节点选择器2、提取信息3、关联选择4、方法选择器5、CSS选择器一、Beautiful Soup的介绍Beautiful Soup是一个强大的解析工具,它借助网页结构和属性等特性来解析网页。它提供一些函数来处理导航、搜索、修改分析树等功能,Beautiful Soup不需要考虑文档的编码格式。Beautiful Soup在解析时实际上需要依赖解析器,常用的解析原创 2021-09-18 18:10:55 · 526 阅读 · 0 评论 -
精简化爬虫流程(爬取+部署)
python爬虫及本地数据接口搭建一、爬取数据1、声明URL和请求头2、发送请求二级目录三级目录本篇博客主要爬取豆瓣电影部分电影数据,以json数据格式保存,并将爬取到的数据部署到本地接口服务器上。使用的技术主要有:requestsjson-servernpm如果还有小伙伴电脑中没有npm安装方式,可以点击此链接进行安装:node.js安装详解一、爬取数据凡是涉及爬取数据,爬取过程无非就是:声明爬取URL,设置请求头发送请求后,服务器获取请求,返回响应解析数据保存数据以下将根据原创 2021-09-12 12:32:10 · 317 阅读 · 0 评论 -
python网络爬虫——XPath的使用(四)
python网络爬虫——XPath的使用XPath的使用一、XPath的介绍二、XPath使用1、选取所有节点2、获取子节点3、获取父节点4、属性匹配5、文本获取6、属性获取7、属性多值匹配8、多属性匹配9、按序选择10、节点轴选择XPath的使用一、XPath的介绍XPath的几个常用规则:表达式描述nodename选取此节点的所有子节点/从当前节点选取直接子节点//从当前节点选取子孙节点.选取当前节点…选取当前节点的父节点@选取属性原创 2021-09-09 14:44:41 · 356 阅读 · 0 评论 -
python网络爬虫——正则表达式(三)
正则表达式一、常见的匹配规则二、常见的匹配方法1、match()2、search()3、findall()4、sub()5、compile()在python爬虫中,使用到正则表达式的库为re库。一、常见的匹配规则二、常见的匹配方法1、match()match()方法从字符串的起始位置开始匹配,该方法有两个参数,第一个是正则表达式,第二个是需要匹配的字符串;re.match(正则表达式,字符串)如果该方法匹配成功,返回的是SRE_Match对象,如果未匹配到,则返回None。返回成功后有两原创 2021-09-03 21:38:41 · 249 阅读 · 0 评论 -
python网络爬虫——爬虫第三方库的使用(二)
爬虫第三方库的使用一、urllib库的介绍与使用1、urlopen()方法2、Request()方法3、Robots协议二、requests库的介绍与使用1、GET请求2、POST请求3、文件上传4、Cookies5、会话维持6、SSL证书验证7、代理设置8、超时设置9、身份验证一、urllib库的介绍与使用1、urlopen()方法使用该方法模拟浏览器向服务器发送请求,该方法处理授权验证、重定向、浏览器cookie以及其他内容。使用方法如下:#导入urllib库import urllib.re原创 2021-09-01 21:46:17 · 1265 阅读 · 0 评论 -
python网络爬虫——HTTP和爬虫的基本原理(一)
一、HTTP的请求过程客户端向服务器发送请求,服务器在获取请求后,给服务器反馈数据响应。1、请求一般客户端发送请求中包含以下信息:请求方法、请求的目标网址、请求头、请求体;请求方法常见的请求方法有:GET方法和POST方法。GET请求的参数会直接包含在URL里面,并且提交的数据最多只有1024字节;POST请求其数据通常以表单的形式传输,提交数据没有限制;当然还有一些其他请求方式,例如:HEAD、PUT、DELETE、CONNECT等方式。请求网址请求的网址,即统一资源定位符URL(U原创 2021-08-30 16:59:26 · 370 阅读 · 0 评论