Python---网络爬虫初识

最新推荐文章于 2023-02-18 14:15:06 发布

Ca1ma_hu

最新推荐文章于 2023-02-18 14:15:06 发布

阅读量253

点赞数

分类专栏： Python学习之路

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37444209/article/details/83246741

版权

1. 网络爬虫介绍

来自wiki的介绍:

网络爬虫（英语：web crawler），也叫网上蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。

但是我们在写网络爬虫时还要注意遵守网络规则，这样才能是我么使我们更好的利用其中的资源

爬虫访问网站的过程会消耗目标系统资源。不少网络系统并不默许爬虫工作。因此在访问大量页面时，爬虫需要考虑到规划、负载，还需要讲“礼貌”。不愿意被爬虫访问、被爬虫主人知晓的公开站点可以使用robots.txt文件之类的方法避免访问。这个文件可以要求机器人只对网站的一部分进行索引，或完全不作处理。

虽然robots.txt只是一种网站主人对爬虫爬取的一种声明，但是博主希望大家可以遵守。

2. 爬虫流程

在此之后我们所用的都是python3.x，python2.x的另找其他。

基本流程：

使用request库获取目标url的html文档
使用浏览器打开网页源代码分析其中的元素节点
通过Beautiful Soup库或正则表达式获得想要的数据
将数据保存到本地或者数据库

3. requests库的安装

在cmd中，通过如下指令安装：

pip install requests

在pythonzh检验是否安装成功

import requests

介绍：

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python---网络爬虫初识

1. 网络爬虫介绍来自wiki的介绍:网络爬虫（英语：web crawler），也叫网上蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。但是我们在写网络爬虫时还要注意遵守网络规则，这样才能是我么使我们更好的利用其中的资源爬虫访问网站的过程会消耗目标系统资源。不少网络系统并不默许爬虫工作。因此在访问大量页面时，爬虫需要考虑到规划、负载，还需要讲“礼貌”。不愿意被爬虫访问、...
复制链接

扫一扫

专栏目录

Ca1ma_hu CSDN认证博客专家 CSDN认证企业博客

码龄7年

43: 原创

15万+: 周排名

215万+: 总排名

1万+: 访问

: 等级

626: 积分

8: 粉丝

8: 获赞

7: 评论

13: 收藏

私信

关注

分类专栏

Linux 3篇
搜索 6篇
大数运算 2篇
最小生成树 1篇
学习笔记 11篇
Python学习之路 7篇
网络流 1篇
国家集训队论文分类整理 1篇
刷题之路 10篇
排序 1篇
数据结构 1篇
数论 3篇
博弈论 1篇
图论 8篇
软件 1篇
web 2篇
php 1篇
mysql 1篇
ctf

最新评论

最短路问题---Dijkstra算法学习
qq_41892341: 好
CCPC-Wannafly Summer Camp #1（部分解题报告）
Ca1ma_hu 回复 Draymonders: 有题解，但由于水平不够没看懂
CCPC-Wannafly Summer Camp #1（部分解题报告）
Draymonders: 问一下有那个Kingdom的题解吗？
Wannafly挑战赛16---A 取石子
henuzsh 回复 Ca1ma_hu: 好的，谢谢
Wannafly挑战赛16---A 取石子
Ca1ma_hu 回复 henuzsh: 看看多重集合的排列组合问题看看这个博客https://blog.csdn.net/kennyrose/article/details/7469528

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。