卡利-安-CSDN博客

原创【XPath】—— python网络爬虫（六）

其后需要跟两个冒号，然后是节点的选择器，这里我们直接使用*,表示匹配所有节点，因此相应返回结果是第一个li节点的所有祖先节点，包括html、body,div和ul。这里我们虽然使用的是*匹配，但又加了索引选择，所以只获取了第二个后续节点。可想而知，这里选取的是所有子孙节点的文本，其中前两个是li的子节点a内部的文本，另外一个是最后一个li节点内部的文本，即换行符。第三次选择时，调用了 attribute 轴，可以获取所有属性值，其后跟的选择器还是*,代表获取节点的所有属性，返回值就是li节点的所有属性值。

2024-04-21 23:00:00 613 1

原创【httpx】—— Python网络爬虫（五）

某些情况下，一些网站强制使用HTTP/2.0协议访问，这时urllib 和 requests 是无法爬取数据的，因为它们只支持HTTP/1.1，不支持HTTP/2.0。这种情况下，只需要使用一些支持 HTTP/2.0的请求库就好了，目前来说，比较有代表性的是hyper 和 httpx，后者使用起来更加方便，功能也更强大，requests已有的功能它几乎都支持。

2024-04-20 18:29:51 1917

原创【正则表达式】—— Python网络爬虫（四）

正则表达式中.*后面是\d+,也就是至少一个数字，而且没有指定具体几个数字，因此，.*会匹配尽可能多的字符，这里就把123456都匹配了，只给\d+留下一个可满足条件的数字7,因此最后得到的内容就只有数字7。这里用的是 group(1),它与 group()有所不同，后者会输出完整的匹配结果，前者会输出第一个被()包围的匹配结果。这里往 sub方法的第一个参数中传入\d+以匹配所有的数字，往第二个参数中传入把数字替换成的字符串(如果去掉该参数，可以赋值为空),第三个参数是原字符串。该对象包含两个方法；

2024-04-15 22:35:36 891

2302_78240669的博客

原创【XPath】—— python网络爬虫（六）

原创【httpx】—— Python网络爬虫（五）

原创【正则表达式】—— Python网络爬虫（四）

原创【requests】——Python网络爬虫（三）

原创 urllib库的使用——Python网络爬虫（二）

原创 HTTP基本原理——Python网络爬虫（一）

空空如也

keil4编译遇到target not created 怎么办？

原创 【XPath】—— python网络爬虫（六）

原创 【httpx】—— Python网络爬虫（五）

原创 【正则表达式】—— Python网络爬虫（四）

原创 【requests】——Python网络爬虫（三）

原创 urllib库的使用——Python网络爬虫（二）

原创 HTTP基本原理——Python网络爬虫（一）

空空如也

keil4编译遇到target not created 怎么办？

原创【XPath】—— python网络爬虫（六）

原创【httpx】—— Python网络爬虫（五）

原创【正则表达式】—— Python网络爬虫（四）

原创【requests】——Python网络爬虫（三）