👻相信不少小伙伴们通过我的两篇万字博文的轮番轰炸已经实现了从入坑到会完全学会requests库,并且可以独立开发出属于自己的小爬虫项目!!!——爬虫之路,永无止境~👻
💦第一篇爬虫入坑文;一篇万字博文带你入坑爬虫这条不归路 【万字图文】💦
💦第二篇爬虫库requests库详解。两万字博文教你python爬虫requests库【详解篇】💦
😬但是爬虫爬虫,重在爬取到我们想要的数据,那么我们该如何提取页面中我们所需要的信息呢?为了让小伙伴们更加深入的学习本文所讲的页面解析库,我先一步肝了一篇HTML万字详解,希望小伙伴们认认真真看完,看明白,看懂,多敲敲,日后你们自会感受到本博主的用意—— 《HTML两万字王者笔记大总结【❤️熬夜整理&建议收藏❤️】(上篇)》和HTML两万字王者笔记大总结【❤️熬夜整理&建议收藏❤️】(下篇)😬
👇
👉🚔直接跳到末尾🚔👈 ——>领取专属粉丝福利💖
☝️
😜爬取到我们想要的数据——专业点说就是进行页面解析!对于网页的节点来说,它可以定义id,class等多种属性。而且节点之间还有层次关系,在网页中可以通过XPath或CSS选择器来定位一个或多个节点。那么,在页面解析时,利用XPath或CSS选择器来提取某个节点,然后调用相应方法获取它的正文内容或者属性,不就可以提取我们想要的信息了吗!😜
我们伟大的Python已经为我们封装了很多实现上述操作的解析库,其中比较强大&&用的较多的有lxml,Beautiful Soup,pyquery等。本篇博文带领小伙伴们走入XPath(我们日后最常用/最实用的解析库之一)的世界!
学好解析库,网页数据任我取!!! |