Python爬虫之爬虫的基本概念

最新推荐文章于 2023-04-24 14:00:00 发布

疯狂的小强呀

最新推荐文章于 2023-04-24 14:00:00 发布

阅读量379

点赞数

分类专栏： Python 文章标签： Python爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/David_house/article/details/98658116

版权

Python 专栏收录该内容

36 篇文章 1 订阅

订阅专栏

网络爬虫

什么是网络爬虫

通俗理解：爬虫是一个模拟人类请求网站行为的程序。

功能：可以自动请求网页，并将数据抓取下来，然后使用一定的规则提取有价值的数据

专业介绍可参考百度百科

通用爬虫和聚焦爬虫

通用爬虫：通用爬虫是搜索引擎抓取系统（百度、谷歌、搜狗等）的重要组成部分。主要是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。

聚焦爬虫：是面向特定需求的一种网络爬虫程序，他与通用爬虫的区别在于：聚焦爬虫在实施网页抓取的时候会对内容进行筛选和处理，尽量只抓取与需求相关的网页信息。

为什么用Python写爬虫程序

PHP：PHP是世界上最好的语言，但他天生不是做这个的，而且对多线程、异步支持不是很好，并发处理能力弱。爬虫是工具性程序，对速度和效率要求比较高。
Java：生态圈很完善，是Python爬虫最大的竞争对手。但是java语言本身很笨重，代码量很大。重构成本比较高，任何修改会导致代码大量改动。爬虫要经常修改采集代码。
C/C++：运行效率是无敌的，但是学习和开发成本高，写个小爬虫程序可能要大半天的时间。
Python：语法优美，代码简洁，开发效率高，支持的模块多。相关的HTTP请求模块和HTML解释模块非常丰富。还有Scrapy和Scrapy-Redis框架让我们开发爬虫变得异常简单。

基本流程

准备工作
通过浏览器查看分析目标网页，学习编程基础规范
获取数据
通过HTTP库向目标站点发起请求，请求可以包含额外的header等信息，如果服务器能正常响应，会得到一个response，便是要获取的页面内容
解析内容
得到的内容可能是HTML、json等格式，可以用页面解析库、正则表达式等进行解析
保存数据
保存形式多样，可以存为文本，也可以存到数据库，或者保存特定格式的文件

相关链接

https://www.bilibili.com/video/av57661741

疯狂的小强呀

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python爬虫之爬虫的基本概念

网络爬虫什么是网络爬虫通俗理解：爬虫是一个模拟人类请求网站行为的程序。功能：可以自动请求网页，并将数据抓取下来，然后使用一定的规则提取有价值的数据专业介绍可参考百度百科通用爬虫和聚焦爬虫通用爬虫：通用爬虫是搜索引擎抓取系统（百度、谷歌、搜狗等）的重要组成部分。主要是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。聚焦爬虫：是面向特定需求的一种网络爬虫程...
复制链接

扫一扫

专栏目录

疯狂的小强呀 CSDN认证博客专家 CSDN认证企业博客

码龄5年

211: 原创

2万+: 周排名

8080: 总排名

56万+: 访问

: 等级

3940: 积分

2202: 粉丝

809: 获赞

151: 评论

2838: 收藏

私信

关注

热门文章

分类专栏

个人总结 11篇
vue 25篇
前端 24篇
大数据 25篇
Python 36篇
算法 7篇
数据科学 3篇
数据库 7篇
C++ 8篇
sklearn 11篇
操作系统 5篇
spark 4篇
数据结构 11篇
计算机组成原理 11篇
Scala 3篇
人工智能 18篇

最新评论

bert实现词嵌入及其参数详解
疯狂的小强呀: 一般是所有的都放进去
bert实现词嵌入及其参数详解
weixin_44080856: 您好，我想问一下如果是加载本地模型是把pytorch_model.bin放到目录里就可以了吗，还是要把json文件都放进去？感谢
计算机组成原理之冯诺依曼计算机
做而论道_CS: 键盘、鼠标、扫描仪、打印机、显示器、声卡。。。这一个个的，都是单独的计算机。话筒，才是输入设备；喇叭，才是输出设备。这种教材，纯粹是胡编乱造！这种作者，根本就不懂计算机！　你还是去当幼儿教师吧。
计算机组成原理之冯诺依曼计算机
做而论道_CS: 输入输出设备输入设备：向计算机输入数据（键盘、鼠标、网卡、扫描仪等）输出设备：输出处理结果（显示器、声卡、网卡、打印机等）－－－－－－－－－－－－－－瞎扯吧！比如打印机：　其中，也有CPU、也有存储器。　电动机、喷墨嘴、LED 指示灯，是其输出设备。　各种传感器（缺纸夹纸），是其输入设备。比如键盘：　其中，也有CPU（早期是 8048）、也有存储器。　LED 指示灯，是其输出设备。　按键、拨动开关，才是其输入设备。。。。
计算机组成原理之冯诺依曼计算机
做而论道_CS: 外存储器，和内存储器，直接交流数据？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

疯狂的小强呀 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。