Python爬虫
文章平均质量分 67
聂小七f
为了能够处理好实验数据,一只从来没接触过代码的小白立志把r语言学精通
展开
-
Python爬虫(四)——正则表达式
前三节我们基本掌握了抓取整个⽹⻚的基本技能,但是,还是第一节说的话,大多数情况下, 我们并不需要整个⽹⻚的全部内容,而是仅仅其中一小部分。在抽丝剥茧,挑出最需要的那部分数据时就需要合理利用一些数据提取工具,常用且非常好用的3个解析工具隆重出场。1. re解析,又叫正则表达式,这个很重要,可以做几乎所有你想解析的事情,难度也最大;2. bs4解析,如果说re是常规手段解决问题,那么bs4就是利用灵巧的手段解决部分具体问题;3. xpath解析,那就再灵活一点,代码短了,但是理解起来也会难度大一点。原创 2022-10-23 14:51:06 · 364 阅读 · 0 评论 -
Python爬虫(三)——requests
requests模块包括get, post两种⽅式的请求,分别对应咱们在第二节提到的两种渲染方式,在post请求时,最重要的是找到url,其次是加密方式。下节课我们来学bs4。原创 2022-10-06 22:50:04 · 943 阅读 · 0 评论 -
Python爬虫(二)——爬虫请求的全部过程
获取源代码不难,很多都是不加密的,但是吸引我们的反而是那些加密的!文字、图片、视频等信息,我们去找源代码,但是找到以后我们只拿走我们需要的那部分数据,所以,知道浏览器怎么渲染数据的是一个很重要的信息。我们在请求到服务器的时候,服务器直接把数据全部写⼊到html中, 所以我们直接拿到带有数据的html内容。因此,我们要想获取我们想要的数据就必须拿到这部分源代码,然后再写浏览器执行的步骤,把这部分代码可视化。比如下图,左边是用户页面,右边是源代码(右击空白页面可以检查网页源代码),而数据就在源代码中清晰可见,原创 2022-09-20 23:06:18 · 467 阅读 · 0 评论 -
Python爬虫(一)——爬Bing首页
时代日新月异,不知道各位是否遇到过这样的需求,时常总是希望能够保存互联⽹上的⼀些重要的数据信息为⼰所⽤,例如一部紧张刺激的小说,数百张优秀的让⼈⾎脉喷张的唯美图片,几个T能让你夜不能寐。原创 2022-09-18 17:19:14 · 462 阅读 · 0 评论