- 博客(6)
- 收藏
- 关注
原创 【XPath】—— python网络爬虫(六)
其后需要跟两个冒号,然后是节点的选择器,这里我们直接使用*,表示匹配所有节点,因此相应返回结果是第一个li节点的所有祖先节点,包括html、body,div和ul。这里我们虽然使用的是*匹配,但又加了索引选择,所以只获取了第二个后续节点。可想而知,这里选取的是所有子孙节点的文本,其中前两个是li的子节点a内部的文本,另外一个是最后一个li节点内部的文本,即换行符。第三次选择时,调用了 attribute 轴,可以获取所有属性值,其后跟的选择器还是*,代表获取节点的所有属性,返回值就是li节点的所有属性值。
2024-04-21 23:00:00
613
1
原创 【httpx】—— Python网络爬虫(五)
某些情况下,一些网站强制使用HTTP/2.0协议访问,这时urllib 和 requests 是无法爬取数据的,因为它们只支持HTTP/1.1,不支持HTTP/2.0。这种情况下,只需要使用一些支持 HTTP/2.0的请求库就好了,目前来说,比较有代表性的是hyper 和 httpx,后者使用起来更加方便,功能也更强大,requests已有的功能它几乎都支持。
2024-04-20 18:29:51
1917
原创 【正则表达式】—— Python网络爬虫(四)
正则表达式中.*后面是\d+,也就是至少一个数字,而且没有指定具体几个数字,因此,.*会匹配尽可能多的字符,这里就把123456都匹配了,只给\d+留下一个可满足条件的数字7,因此最后得到的内容就只有数字7。这里用的是 group(1),它与 group()有所不同,后者会输出完整的匹配结果,前者会输出第一个被()包围的匹配结果。这里往 sub方法的第一个参数中传入\d+以匹配所有的数字,往第二个参数中传入把数字替换成的字符串(如果去掉该参数,可以赋值为空),第三个参数是原字符串。该对象包含两个方法;
2024-04-15 22:35:36
891
原创 【requests】——Python网络爬虫(三)
requests,是一个更为强大的类库,可以更高效地完成Cookie、登录验证、代理设置等操作首先,先要确保已安装好requests库:若能正常导入,则说明安装成功:先通过实例来了解下requests库相较于urllib库的强大这里我们调用get方法实现了与urlopen方法相同的操作,返回一个Response对象,并将其存放在变量r中,然后分别输出了响应的类型、状态码,响应体的类型、内容,以及Cookie。
2024-04-14 18:55:43
1779
原创 urllib库的使用——Python网络爬虫(二)
1、发送请求urllib,是一个Python库,利用它就可以实现HTTP请求的发送,而且不需要关心HTTP 协议本身甚至更底层的实现,我们只需指定请求的URL、请求头、请求体等信息。此外urllib还 可以把服务器返回的响应转化为Python对象,我们通过该对象便可以方便地获取响应的相关信息,如响应状态码、响应头、响应体等。urllib库是Python内置的HTTP请求库,也就是说不需要额 外安装,可直接使用。:这是最基本的 HTTP请求模块,可以模拟请求的发送。就像在浏览器里输入网址然。
2024-04-13 16:42:50
711
原创 HTTP基本原理——Python网络爬虫(一)
1.URI和 URL1.URI和 URLURI的全称为即统一资源标志符;URL 的全称为,即统一资源定位符URL是URI的子集,也就是说每个URL都是URI,但并非 每个URI都是URL。除了URL, URI还包括一个子类,叫作 URN,其全称为,即统一资源名称。
2024-04-07 22:10:32
1541
空空如也
keil4编译遇到target not created 怎么办?
2023-09-02
TA创建的收藏夹 TA关注的收藏夹
TA关注的人