自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 【XPath】—— python网络爬虫(六)

其后需要跟两个冒号,然后是节点的选择器,这里我们直接使用*,表示匹配所有节点,因此相应返回结果是第一个li节点的所有祖先节点,包括html、body,div和ul。这里我们虽然使用的是*匹配,但又加了索引选择,所以只获取了第二个后续节点。可想而知,这里选取的是所有子孙节点的文本,其中前两个是li的子节点a内部的文本,另外一个是最后一个li节点内部的文本,即换行符。第三次选择时,调用了 attribute 轴,可以获取所有属性值,其后跟的选择器还是*,代表获取节点的所有属性,返回值就是li节点的所有属性值。

2024-04-21 23:00:00 613 1

原创 【httpx】—— Python网络爬虫(五)

某些情况下,一些网站强制使用HTTP/2.0协议访问,这时urllib 和 requests 是无法爬取数据的,因为它们只支持HTTP/1.1,不支持HTTP/2.0。这种情况下,只需要使用一些支持 HTTP/2.0的请求库就好了,目前来说,比较有代表性的是hyper 和 httpx,后者使用起来更加方便,功能也更强大,requests已有的功能它几乎都支持。

2024-04-20 18:29:51 1917

原创 【正则表达式】—— Python网络爬虫(四)

正则表达式中.*后面是\d+,也就是至少一个数字,而且没有指定具体几个数字,因此,.*会匹配尽可能多的字符,这里就把123456都匹配了,只给\d+留下一个可满足条件的数字7,因此最后得到的内容就只有数字7。这里用的是 group(1),它与 group()有所不同,后者会输出完整的匹配结果,前者会输出第一个被()包围的匹配结果。这里往 sub方法的第一个参数中传入\d+以匹配所有的数字,往第二个参数中传入把数字替换成的字符串(如果去掉该参数,可以赋值为空),第三个参数是原字符串。该对象包含两个方法;

2024-04-15 22:35:36 891

原创 【requests】——Python网络爬虫(三)

requests,是一个更为强大的类库,可以更高效地完成Cookie、登录验证、代理设置等操作首先,先要确保已安装好requests库:若能正常导入,则说明安装成功:先通过实例来了解下requests库相较于urllib库的强大这里我们调用get方法实现了与urlopen方法相同的操作,返回一个Response对象,并将其存放在变量r中,然后分别输出了响应的类型、状态码,响应体的类型、内容,以及Cookie。

2024-04-14 18:55:43 1779

原创 urllib库的使用——Python网络爬虫(二)

1、发送请求urllib,是一个Python库,利用它就可以实现HTTP请求的发送,而且不需要关心HTTP 协议本身甚至更底层的实现,我们只需指定请求的URL、请求头、请求体等信息。此外urllib还 可以把服务器返回的响应转化为Python对象,我们通过该对象便可以方便地获取响应的相关信息,如响应状态码、响应头、响应体等。urllib库是Python内置的HTTP请求库,也就是说不需要额 外安装,可直接使用。:这是最基本的 HTTP请求模块,可以模拟请求的发送。就像在浏览器里输入网址然。

2024-04-13 16:42:50 711

原创 HTTP基本原理——Python网络爬虫(一)

1.URI和 URL1.URI和 URLURI的全称为即统一资源标志符;URL 的全称为,即统一资源定位符URL是URI的子集,也就是说每个URL都是URI,但并非 每个URI都是URL。除了URL, URI还包括一个子类,叫作 URN,其全称为,即统一资源名称。

2024-04-07 22:10:32 1541

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除