爬虫
文章平均质量分 65
爬虫
Kinght_123
大家好,我是Kinght_123,欢迎大家关注!
展开
-
探索网络深处:爬虫技术的奥秘
爬虫(Web crawler),又称网络爬虫、蜘蛛、蜘蛛机器人或网络机器人,是一种自动化程序,用于在互联网上自动地浏览、检索和抓取网页信息。这些信息可以是文本、图片、视频、链接等多种形式的数据。爬虫模拟人类浏览网页的行为,从而能够收集和获取网络上的信息,并将这些信息传输到其他程序或系统进行分析、处理或展示。URL管理:爬虫通过一系列算法和策略管理待访问的URL队列,确保能够覆盖目标网站的所有页面。网页下载:爬虫根据URL从网络上下载网页内容。原创 2024-03-25 10:16:25 · 1528 阅读 · 0 评论 -
关于爬虫爬取网页时遇到的乱码问题的解决方案。
最近,我像爬取一下三国演义这本书籍的全部内容。网站的网址为:https://www.shicimingju.com/book/sanguoyanyi.html但是我爬取出来的结果是这样的会遇到乱码。经过我多方面的调试发现,就是网页的编码和我pycharm的编码不一致导致的。网页的编码是ISO-8859-1,而pycharm的编码是‘utf-8’原创 2024-01-24 21:01:45 · 1167 阅读 · 0 评论 -
爬虫小练习:Python爬取某一城市的餐厅的具体位置。
我们可以看到当我们输入餐厅关键字时,会出现那个城市所在的所有肯德基餐厅的名称和地址。4. 接下来我们只需要通过循环来读取所有页数的数据并保存。原创 2022-12-21 17:07:30 · 34 阅读 · 13 评论 -
Python爬虫之数据解析!!
目录前言正文实现数据解析的方法1.正则表达式1.1例子2.bs4解析2.1bs4数据解析的原理2.2环境安装2.3关于bs4的一些用法2.4例子2.xpath解析2.1解析原理2.2环境安装2.3xpath的常用表达式2.4etree对象实例化2.5例子三种数据解析的比较前言我们首先回顾requests模块实现数据爬取的流程:指定url发送请求获取响应化数据持久化存储但是这中间还可以添加一步,就是数据解析。指定url发送请求获取响应化数据数据解析持久化存储下面让我来介绍一些原创 2021-01-08 22:39:24 · 203 阅读 · 0 评论 -
关于Python爬虫时UA伪装的实现。
UA伪装UA伪装通俗来讲就是请求载体身份标识的伪装。User-Agent请求载体身份标识,通过浏览器发起的请求,请求载体为浏览器,则该请求的User-Agent为浏览器的身份标识,如果使用爬虫程序发起的请求,则该请求的载体为爬虫程序,则该请求的User-Agent为爬虫程序的身份标识。服务器可以通过该值来判断发起请求的是浏览器还是爬虫程序。反爬机制某些门户网站会对访问该网站的请求中的User-Agent进行捕获和判断,如果该请求的UA为爬虫程序,那么就拒绝该提供请求数据。反反爬机制将爬虫的UA原创 2021-01-08 22:26:06 · 1615 阅读 · 5 评论 -
Python——初识爬虫!!
什么是爬虫?学术解释:爬虫就是通过编写程序模拟浏览器上网,让其去互联网上抓取数据的过程。我的理解:所谓的爬虫,就是通过写程序去获取网页中你想要获取的数据。爬虫可能带来的一些风险爬虫可能会干扰了被访问网站的正常运营。爬虫不能抓取受到法律保护的特定类型的数据或信息。如何避免爬虫所带来的一些风险呢?严格遵守网站设置的robots协议。在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行。在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或原创 2021-01-03 20:59:40 · 257 阅读 · 1 评论