python爬虫
文章平均质量分 89
介绍python预言实现爬虫的功能
Bruce小鬼
**高级测试开发**
- 技术是在不断打磨中成长,
- 能力是在不断采坑中成熟,
- 技术人的路就是在采坑中寻找乐趣,在成长过程中不断成熟。
> 书山有路勤为径,学海无涯苦作舟
关注:brucelong.blog.csdn.net
展开
-
爬虫 Edge浏览器安装Xpaht Helper插件平替Chrome浏览器Xpaht Helper插件定位元素
在爬虫过程中最多的操作就是在解析数据,尤其是解析html页面元素,如果没有工具帮助定位元素时间会很长,因此找到了一款平替chrome浏览器使用的Xpaht Helper插件,安装到Edge浏览器上辅助我们完成页面元素定位。原创 2022-10-27 10:25:09 · 7907 阅读 · 8 评论 -
python爬虫数据解析总结
获取数据中包含了我们需要的数据和不需要的数据,这个时候可以利用一些规则过滤数据,只保留需要的数据。原创 2022-10-24 19:50:28 · 1075 阅读 · 0 评论 -
网络请求urllib库使用总结
Urllib库是python自带的发送网络请求库,可以满足日常接口请求接收响应数据任务,在实际场景中发挥出它的价值还需要对这个库做一些了解,才能熟练使用它完成我们的需求,关于urllib库的使用都在这篇文章中进行总结。上面的示例中已经使用read函数获取了响应数据,下面介绍下read函数的其他使用方式。原创 2022-10-21 20:51:34 · 959 阅读 · 0 评论 -
python3网络爬虫:正则表达式1(四)
python3网络爬虫:正则表达式1(四)'''正则表达式'''import re #导入正则表达式类#search方法匹配字符有两个参数,第一个参数是匹配规则(第一个参数左边的r表示原始字符,如果有反斜杠,代表格式化这些反斜杠输出原始字符),# 第二个参数是被匹配的数据。r = re.search(r'I love you','I love you')print(r) ...原创 2018-05-29 10:59:47 · 737 阅读 · 0 评论 -
python3网络爬虫:正则表达式匹配ip格式详解
python3网络爬虫:正则表达式匹配ip格式详解r'(([01]{0,1}\d{0,1}\d|2[0-4]\d|25[0-5])\.){3}([01]\d{0,1}\d{0,1}\d|2[0-4]\d|25[0-5]) 其中最前面的 r' 防止转义影响到我们的正则表达式;我们知道ip段的单个值的范围是0-255,该表达式匹配时把它分为3部分来匹配,即0-199,200-249,250...转载 2018-05-29 11:02:01 · 2732 阅读 · 0 评论 -
python3网络爬虫:正则表达式2(四)
python3网络爬虫:正则表达式2(四)'''元字符 . 匹配除换行符以外的所以字符 ^ 规定匹配模式必须出现在目标字符串的开头,例如:^hell hello hellboy $ 规定匹配模式必须出现在目标字符串的结尾,例如:ar$ car bar\ 1、转义字符,讲一个普通的字符变成特殊字符,eg:\d表示匹配十进制数字 2、解除元字符的特殊功能,eg:\...原创 2018-05-29 13:53:32 · 762 阅读 · 0 评论 -
python3网络爬虫:正则表达式特殊符号和编译正则表达式3(五)
python3网络爬虫:正则表达式特殊符号和编译正则表达式3(五)'''正则表达式特殊符号及用法\A 匹配输入字符串的开始位置\Z 匹配输入字符串的结束位置\b 匹配一个单词边界,字母数字或下划线字符\B 匹配非单词边界,和\b相反\d 匹配任何一个数字\D 匹配任何非数字\s 1、对于unicode模式,匹配unicode中的空白字符包括([\t\n\r\f\v])以及其他空...原创 2018-05-29 14:40:22 · 931 阅读 · 0 评论 -
Python3网络爬虫:urllib.error异常
Python3网络爬虫:urllib.error异常一.urllib.errorurllib.error可以接收有urllib.request产生的异常。urllib.error有两个方法,URLError和HTTPError。如下图所示:URLError是OSError的一个子类,HTTPError是URLError的一个子类,服务器上HTTP的响应会返回一个状态码,根据这个HT...转载 2018-05-30 09:10:25 · 1803 阅读 · 0 评论 -
python3网络爬虫:爬虫正则表达式下载图片(六)
python3网络爬虫:爬虫正则表达式下载图片(六)import urllib.requestimport redef open_url(url): req = urllib.request.Request(url) req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKi...原创 2018-05-30 09:16:32 · 1078 阅读 · 0 评论