python爬虫
文章平均质量分 92
Oona_01
这个作者很懒,什么都没留下…
展开
-
5.网络爬虫——Xpath解析
当我们需要选择一个未知节点时,意味着我们无法确定节点的位置或名称,但我们知道节点具有某些特定属性或特征。首先,我们获取这个网页的源代码到我们本地,这个就不具体演示了,前面几章已经作了详细的讲解,如果有疑问,可以看我之前的文章。在这个例子中,谓语是“[price > 10]”,它指定了一个条件,它只选择价格大于10美元的书籍。转载 2024-03-21 16:37:07 · 43 阅读 · 1 评论 -
3.网络爬虫——Requests模块get请求与实战
请求头对爬虫来说,就好像一个面具,去模仿人去浏览网站,就不会被网站发现,也可以理解为打开网站的钥匙,上面我们知道,数据在链接中,但是我们申请后,返回状态码是418,请求失败,所有我们现在戴上面具,或者说,拿着钥匙再去申请,看看能不能成功打开。打开网页,点击右键,点击检查,然后点击左上角的小箭头,移动到左边我们需要的数据上面,如果右边代码中出现相应的代码,就说明数据就在代码中,接着我们就开始后面的操作,方便获取我们需要的数据。指定请求体和请求参数:请求头中还可以包含请求体和请求参数,用于向服务器传递数据。转载 2024-03-21 16:34:15 · 19 阅读 · 1 评论 -
1.认识网络爬虫
3、由于cookie可以被人为的禁止,必须有其它的机制以便在cookie被禁止时仍然能够session id传递回服务器,经常采用的一种技术叫做 URL重写,就是把session id附加在URL路径的后面,附加的方式也有两种,一种是作为URL路径的附加信息,另一种是作为查询字符串附加在 URL后面。爬虫的全名叫网络爬虫,简称爬虫。2、session是保存在服务器端的,它有一个生命期,客户端的cookie只是保存了id信息,关闭浏览器时,服务器端的session只要还在同一个生命期内还是同一次会话。转载 2024-03-21 16:31:38 · 589 阅读 · 1 评论