爬虫实战系列篇
文章平均质量分 63
爬虫实战系列篇
redrose2100
Python开发工程师/DevOps工程师/测试开发工程师
展开
-
Python常用的第三方库----requests
有时我们需要发送自定义的请求头。原创 2023-11-15 23:47:06 · 245 阅读 · 0 评论 -
Scrapy----Scrapy架构及工作流程
本文主要介绍了scrapy的架构和工作流程原创 2023-02-25 22:30:52 · 855 阅读 · 0 评论 -
Scrapy----Scrapy简介
Scrapy,一个高效、灵活、且强大的Web爬取框架,被广泛应用于数据抓取和网页内容的结构化提取。它是用Python编写的,支持多平台运行,适用于数据挖掘、在线零售信息收集、历史数据存档等多种场景。Scrapy的设计理念是简洁性和可扩展性,使得它能够处理大规模的数据抓取任务。原创 2023-11-16 19:30:30 · 527 阅读 · 0 评论 -
爬虫----robots.txt 协议简介
是一个用于指示网络爬虫(web spider或web robot)如何与网站上的内容进行交互的协议。这个文件被网站管理员放置在网站的根目录下,用于告知爬虫哪些部分的网站是可以被抓取的,哪些是不被允许的。文件是网络爬虫和网站管理员之间沟通的一个重要工具,但它的使用需要谨慎,以确保不会无意中阻止了重要内容的索引,或者暴露了不应该被公开访问的资源。文件允许网站管理员定义哪些内容可以被爬虫访问,哪些不可以。可以用来避免搜索引擎索引某些不重要的页面,从而帮助提高网站的相关页面在搜索结果中的可见度。原创 2023-11-14 23:52:09 · 1416 阅读 · 1 评论