python爬虫——初识

Alanxu0717

已于 2022-02-15 14:55:21 修改

阅读量130

点赞数

分类专栏： python爬虫文章标签： python 爬虫

于 2022-02-15 10:39:24 首次发布

本文链接：https://blog.csdn.net/Alanxu0717/article/details/122938200

版权

python爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章目录

爬虫简介
1 什么是爬虫？

爬虫简介

1 什么是爬虫？

通过代码程序的编写，模拟一个人类上网的一个行为，然后自动获取互联网上所需的数据。

1.1 爬虫是否合法

在法律中是不被禁止的
具有违法风险
善意爬虫

1.2 爬虫带来的风险

爬虫干扰了被访问网站的正常运营
爬虫抓取了受到法律保护的特定类型的数据或信息
如何避免爬虫的过程中触犯到法律
优化爬虫代码，避免干扰被访问的网站的正常运行
在使用爬虫进行数据爬取的时候，查看抓取内容是否合法，是否被网站允许

1.3 爬虫使用场景

通用爬虫
抓取系统的重要组成部分。抓取的是一整张页面数据
聚焦爬虫
是建立在通用爬虫的基础之上。抓取的是页面的特定内容。
增量式爬虫
检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

1.4 爬虫的矛与盾

反爬机制
门户网站，可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。
反反爬机制
爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网站中相关的数据。

1.4 robots.txt协议

君子协议。规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Alanxu0717

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python爬虫之Scrapy框架系列（1）——初识Scrapy框架【安装+简介+运行流程+组件介绍】

孤寒者的博客

07-05

3万+

Python爬虫之Scrapy框架系列（1）——初识Scrapy框架【安装+简介+运行流程+组件介绍】

Python爬虫——爬虫是什么都可以爬的吗？Robots协议！

菜鸟的后花园

07-08

6192

Python爬虫——爬虫是什么都可以爬的吗？初识“爬虫”这个词时，想必大家都会和我一样，认为“爬虫”就是爬取网站上的各种内容，可以抓取网站的信息为我们所用。但事实并不是这么“简单” 也并不是网站上的所有内容你想爬就爬在爬虫界有一种叫Robots协议来限制爬虫的范围。 Robots协议 Robots协议全程“网络爬虫排除标准”，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不...

参与评论您还未登录，请先登录后发表或查看评论

Python入门到入狱2（网络爬虫）

weixin_45067120的博客

11-08

2507

虚拟游览器爬取网页数据一、百度网页爬取测试（Python网络爬虫）二、Python爬虫请求方式三、爬取指定网页（需要伪装成浏览器请求方式）一、百度网页爬取测试（Python网络爬虫） 1.使用工具爬取网页内容： 2.新建文件测试爬取数据是否成功二、Python爬虫请求方式 1.post请求方式内容 2.get请求方式内容 3.状态码，请求参数内容三、爬取指定网页（需要伪装成浏览器请求方式） 1.伪装成网页请求方式 ...

什么是爬虫呢？

weixin_46026136的博客

06-16

1210

爬虫通俗来说就是抓取网页数据，比如说大家都喜欢的妹子图、小视频呀，还有电子书、文字评论、商品详情等等。只要网页上有的，都可以通过爬虫爬取下来。一般而言，python爬虫需要以下几步： 1. 找到需要爬取内容的网页URL 2. 打开该网页的检查页面（即查看HTML代码，按F12快捷键即可进入） 3. 在HTML代码中找到你要提取的数据 4. 写python代码进行网页请求、解析 5. 存储数据当然会撸python是前提，对于小白来说自学也不是件容易的事，需要花相当的时间去适应python

爬虫-从入门到入狱（level1）

芊樱烛渊的博客

05-11

811

我们往往需要采集大量的数据来进行分析，这些信息可以来源于网上，我们可以用爬虫的方法来获取到这些数据。这里我们创建了一段代码，用我们的百度搜索引擎来搜索我们想要的词条 #这里我们导入request模块 import requests if __name__=="__main__": #这里我们指定我们的url，也就是我们的百度网址 url='https://www.baidu.com' #这里我们使用input获取我们输入的内容 kw=input('enter a word:') #这

爬虫-从入门到入狱

热门推荐

weixin_48421613的博客

05-13

1万+

前言：爬虫理论上是被禁止的，这里只讲方法，so，希望大家遵守法律法规，不要去爬敏感网站的数据，不要从事贩卖国家机密相关的相关事宜等。此次涉及到的知识点如下：利用json库截取json指定字符串利用argparse库实现参数化调用利用pymysql库实现数据库操作数据库长连接的使用 pymysql库的使用 pymysql的库作用就是联动mysql数据库，我们这里需要知道的是如何创建数据库连接，如何创建游标对象，如何执行sql语句与事务的提交首先这里介绍的是连接数据库的长连接的使用，

Python爬虫从入门到放弃（十八）之 Scrapy爬取所有知乎用户信息(上)

weixin_33786077的博客

07-21

280

爬取的思路首先我们应该找到一个账号，这个账号被关注的人和关注的人都相对比较多的，就是下图中金字塔顶端的人，然后通过爬取这个账号的信息后，再爬取他关注的人和被关注的人的账号信息，然后爬取被关注人的账号信息和被关注信息的关注列表，爬取这些用户的信息，通过这种递归的方式从而爬取整个知乎的所有的账户信息。整个过程通过下面两个图表示：爬虫分析过程这里我们找的账号地址是：https://w...

Python爬虫学习——爬取小说章节

一大块肥皂的博客

12-01

4055

之前学了Python好久都没有用，感觉再不继续学就要忘了。。。赶紧再挖个坑继续学习。这个部分会用Python去做爬虫来进行学习，巩固python的知识。爬虫的教程看的是Jack-Cui大佬的文章。这一次是跟着大佬学习： Python3 网络爬虫（二）：下载小说的正确姿势（2020年最新版）_Jack-Cui-CSDN博客练习 - 爬取章节前面的爬虫基础部分就看大佬的上一篇博文，讲的非常棒： Python3 网络爬虫（一）：初识网络爬虫之夜探老王家（2020年最新版）_Jack-Cui-.

python爬虫学习笔记（三）—— 实战爬取豆瓣TOP250电影

12-20

python爬虫学习笔记（一）——初识爬虫 python爬虫学习笔记（二）——解析内容开始实战爬取豆瓣TOP250电影首先还是重新复习下爬虫的基本流程：发起请求获取响应内容解析内容保存数据 1. 发起请求首先观察豆瓣...

Python爬虫入门系列——Urllib详解

m0_47706863的博客

09-21

916

Python爬虫入门系列——Urllib详解1.背景1.1 初识爬虫1.2 合法性1.3 robots协议2.要求2.1 当前开发环境2.2 编程基础3.快速上手Urllib3.1 request模块3.2Error 模块3.3Parse 模块4.高级应用**4.1 Opener**4.2 代理设置4.3 Cookie 1.背景 1.1 初识爬虫网络爬虫，是一种按照一定规则，自动抓取互联网信息的程序或者脚本，其本质是模拟浏览器打开网页，获取网页中我们想要的数据。常用的百度、谷歌的搜索引擎也是一个爬虫，把互

python爬虫从入门到入狱

qq_21941317的博客

02-06

1172

今天开始记录学习python爬虫的整个学习历史，为啦方便后面查阅方便，在此做个笔记第一天：网络爬虫入门第二天：编写第一个网络爬虫第三天：静态网页抓取第四天：动态网页抓取第五天：解析网页第六天：数据存储第七天：提升爬虫的速度第八天：反爬虫问题第九天：登录与验证码处理第十天：服务器采集第十一天：分布式爬虫第十二天：爬虫项目实战 ...

爬虫从入门到入牢

XWenXiang的博客

08-03

4671

爬虫一般指网络爬虫。网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫安装：各种请求方式：常用的就是 requests.get() 和 requests.post() 2. requests 模块介绍在 python 中模拟发送请求使用 requests 模块，或者使用 urllib 内置模块，但是其 api 使用复杂。 2.1 requests ge

Python爬虫从入门到入狱?看了这篇文章或许会改变你的看法

m0_59164304的博客

01-20

3189

导读偶尔有大数据公司被端，无良流量自媒体为博眼球，夸大事实，一句爬虫玩得好，牢饭吃得早，把想学爬虫萌新吓得瑟瑟发抖，生怕因为自己写的爬虫被拷进去，嘤嘤嘤，害怕，我：说实话，以大部分萌新的技术能力有些实在想太多，这种妄下定论的方式跟吃完虾再吃维生素C会砒霜中毒理论一样，脱离剂量谈毒性——都是耍流氓。从技术中立角度而言，爬虫技术本身并无违法违规之处，爬什么，怎么爬才是导致锒铛入狱的罪魁祸首。Github上有个库记录了国内爬虫开发者涉诉与违规相关的新闻、资料与法律法规： https://github.com/

废柴日记8：从入门到入狱的Python爬虫学习笔记1（入门篇）

Mr.RainsdRop的胡思乱想

06-11

1880

我错了，但下次也不一定(●’◡’●)前言：我错了，但下次也不一定(●’◡’●)米娜桑，好久不见，不知道这段时间各位手中的西瓜刀有没有按时擦亮呢？我也是在摸爬滚打将近一年之后总算是找到了一点人生的方向所以当成救命稻草现在正死死握紧不放手的啊。这一年真的是经历了很多，发生了很多事，做了很多次选择，但可能我身上已经被锁定了『反向预测』的笨拙诅咒导致走了很多弯路，但好在是好好的活到了出头之日了。（抽奖的事一直在参与，从未被选中，呜呜呜，岷叔！（没错，永恒mc更新啦！！！

爬虫：从入门到入狱,进去一起做兄弟