![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
广西千灵通网络科技有限公司
本人于2022年毕业,平时喜欢研究代码,自己也写过多个项目,从事过软件自动化测试、运维的相关工作,有问题可以私信
展开
-
根据关键字自动下载图片
根据关键词爬取图片原创 2022-05-14 16:42:59 · 252 阅读 · 2 评论 -
Python爬取国家药监总局化妆品详细信息
第一,找到国家药监总局化妆品官网,URL为:http://scxk.nmpa.gov.cn:81/xk/第二,分析页面信息首先我们要明确我们想要什么信息,很明显现在需要的是找到每一个企业的详细信息,那么我们可以利用网页的抓包工具(F12)来实现这个步骤按F12后,找到这个首页的URL对应的网址,哦豁,这个时候我们发现并没有找到首页我们想要的企业信息,这时候我们应该想到,他应该是个动态的请求,也就是我们说的Ajax请求,我们可以试试,结果有新发现,下面是手动点击下一页出现的信息,这时候刚好出现原创 2020-12-13 21:58:12 · 2260 阅读 · 4 评论 -
Scrapy框架入门
第一,认识ScrapyScrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。Scrapy架构图(绿线是数据流向)Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。Downloader(下载器):负责下载Scrapy En转载 2020-12-12 23:25:55 · 146 阅读 · 0 评论 -
python根据分类动态获取豆瓣排行榜
第一,我们找到豆瓣官网,网址如下:https://movie.douban.com/第二,我们分析页面数据,打开排行榜,打开抓包工具(F12),并找到NetWord,接着定位到XHR,第三,既然是动态获取,那就肯定会有一定的规律,我们滑动首页,就可以发现,每次滑到底部,就会有新的一批数据出现,右边的XHR就会多一行东西出来,这里我滑动到页面底部两次,就出现了两个不同的连接,继续滑动就会继续出现,第四,我们打开右边出现的连接,分析它的结构,这里我们先分析这四个,首先是URL,这就是第一个原创 2020-12-08 14:44:14 · 304 阅读 · 6 评论 -
爬取私厨,获取菜单
第一、找到下厨房的主页这类网址比较多,可以根据自己需要来操作。第二、分析我们的网页,按F12进入下面页面第四、定位菜单属性找到左上角的小箭头,并点击,然后根据我们要爬取的菜品,点击即可定位到代码位置第五、接下来我们一起分析网页吧~进入首页 https://movie.douban.com/top250?start=0&filter= ,打开检查工具,在Elements里查看这个网页,是什么结构。点击开发者工具左上角的小箭头,选中“肖申克的救赎”,这样就定位了电影名的所在位置,审查原创 2020-12-03 12:33:35 · 297 阅读 · 0 评论 -
python爬取豆瓣top250最基础操作
一、咱们先找到豆瓣主页,地址:https://movie.douban.com/chart二、分析网页属性,按F12或者鼠标右击检查即可进入开发者模式:三、鼠标点击右上角的小箭头四、找到我们想要的内容然后点击即可在右边的代码中定位,比如我这里点击到第一部电影的位置:五、分析网页,我们需要找到电影的属性,属性自然包括电影序号、电影名称、评分、评论(推荐语)、电影链接等大概就是下面框内的属性,然后我们根据前面的方法定位到这些属性六、书写代码import requestsfrom b原创 2020-12-03 12:21:14 · 519 阅读 · 1 评论