![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
南南不胖
这个作者很懒,什么都没留下…
展开
-
爬取实验楼全部课程及对应链接
目录前言一、前期准备二、实践!三、完整代码总结 前言 其实学习这种课程直接看网页比较方便,但是并不是所有人都知道这么厉害的课程网站呀!! 正好我好朋友最近不知道学点什么,索性我就把网站课程和链接爬出来,让她自己浏览,如果觉得喜欢了再去网站系统学习~ 因为技术有限,所以没涉及分析、存储啥的,大家一起慢慢学习嘛~ 一、前期准备 这里用到的链接是:https://www.lanqiao.cn/courses/ 大致思路是:指定伪装头和url→发送请求(这里有乱七八糟各种请求)→获取相应信息 从上面图片可以看原创 2020-12-15 11:46:52 · 237 阅读 · 1 评论 -
爬虫05_爬取图片
今天我们爬图片 开始 分析 实践 开始 大家好鸭,又是新的一天! 无论做什么事情,都要恪守初心,要知道我们是为了什么才学爬虫的,比如我,就是为了爬取一些好看的图片…… 所以,今天带大家一起爬一些好看的,图片~ 话不多说,直接高速! http://www.win4000.com/zt/dongman.html 作为一个老二刺猿,当然是直接找动漫图片~ 分析 在这里插入图片描述 打开页面后往下拉,发现图片是真滴好看…… 里面还有我的02老婆~ 认真分析,看到这一张张的图片,我们是不是可以认为这转载 2020-12-09 15:12:54 · 270 阅读 · 0 评论 -
爬虫04_附带功能的爬
02爬取了百度页面 03爬取了搜索页面 有搜索结果 但是没有爬出功能 所以04就来爬功能啦~ 爬出来的东西得有用呀 step1 以简单的翻译页面为例icibi在线翻译(其他的比较复杂) 这里的网址其实就是表面,但是我们找的东西不在里面,所以这里的指定url就不能直接复制网址啦~ 得F12去工作台找! 进去之后发现空空如也。 这时候Ctrl+R / F5 , 就刷刷刷出来一堆了~ OMG,这么多!! 分析:翻译功能:选翻译类型????输入翻译文本????翻译按钮 点了之后,就会给服务器发送请求,然后服务器原创 2020-12-04 11:55:18 · 120 阅读 · 0 评论 -
爬虫03_爬取搜索数据
因为我也是跟着学习的,算是笔记吧~ 之前只爬了搜索页面,并没有爬搜索数据,事实上爬虫一定是要爬数据的! 然而爬虫肯定是要有身份伪装的呀,不然怎么可能会让你随便进入秘密花园呢~ 1、获取身份信息 进行伪装! F12→勾选preserve log 勾选上这个是为了下面显示更多信息,至于原理是啥,我也不知道…… 然后ctrl+R显示信息(刷一下蹦出来很多页面信息 然后就随便点一条就能蹦出来右边的啦~ 在headers里就可以看到获取的头信息,把他复制下来 就可以进行爬虫啦~ 2、开爬! 还是一样的顺序(引入模块原创 2020-12-04 09:51:33 · 939 阅读 · 0 评论 -
爬虫02(requests网络请求模块
1、安装requests模块 ①、Ubuntu环境下 sudo apt-get update //更新 sudo apt-get install python3-pip //安装pip pip3 install requests //安装requests模块 安装成功 ②、win10环境下 官网下载安装包:https://www.python.org/downloads/release/python-373/ 64位电脑就安装64位 32位电脑就安装32位 安装的时候记得勾选环境 就不用配置了原创 2020-12-02 17:27:04 · 109 阅读 · 0 评论 -
爬虫01
爬虫的分类 通用爬虫: 抓取系统重要组成部分。抓取的是一整张页面数据。 聚焦爬虫: 是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。 增量式爬虫: 检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。 爬与反爬 我们要知道,服务器那边的人又不傻,不会白白让你把他们辛辛苦苦整理出来的东西全都给爬走喽,所以说有爬的人,就有反爬的人。 比如说你爬了人家,人家知道你是怎么爬的就针对你爬的方式想出了办法反爬,你又根据别人反爬的方式想出了办法继续爬,别人又根据你继续爬的方式想出了方法反爬,你又根据别转载 2020-12-02 10:39:24 · 53 阅读 · 0 评论