爬虫
漫游感知
学生,学着玩
展开
-
Rust reqwest 解决响应乱码
算法完成对响应的压缩,导致响应并非响应原文(在浏览器中浏览网页时,浏览器会自动完成对响应的解析,因此我们无感),我们需要借助 reqwest 的。字段移除,表示我们不接受经过 gzip 压缩的响应,当然默认情况下不存在该字段,如果代码中存在该字段的设置的话,可以进行移除。来编解码文本,因此乱码问题一般并非是编解码设置不当(当然也存在特殊情况)。这种情况,执行一行 cargo 就可以解决问题。因为如今网站服务器会使用。来完成对相应的解压。原创 2024-07-05 18:13:10 · 343 阅读 · 0 评论 -
最新!使用Python爬取蓝奏云文件下载直链并下载,支持批量爬取,已封装为函数,可直接使用(含注释、库的使用解释)
程序说明本程序不借助第三方网站来获取蓝奏云直链,那样没意思,且程序流程已经过分块化处理(多函数),方便理解和阅读。程序使用了requests、re、lxml库,来请求、解析数据。具有一定学习价值,对Python爬虫技术的熟悉度有益程序总计170行(含空格、换行);5个自创函数 ; 调用三个库本文章完全原创,未经许可,不允转载!!!原作者链接:https://blog.csdn.net/qq_45429426原作者名称:漫游感知程序import requests原创 2021-08-20 12:23:38 · 9475 阅读 · 8 评论 -
因无聊用python写了个爬取蓝奏云直链的爬虫(含注释并包装为函数)
如果需要专门出一篇文章,那就请多多评论回复你的点赞是对我的无尽支持程序含金量虽然不高,但是也有点,大佬勿喷!程序中的保存文件及输入链接未经处理,可以根据自己需求对代码进行修改(比如加个input什么的),还请认真看注释!!!#作者CSDN:https://blog.csdn.net/qq_45429426?spm=1011.2124.3001.5343 漫游感知#请勿转载!!!!#没有的库请用pip指令下载import requests #第三方库,来发送请求等操作原创 2021-02-11 18:40:55 · 5761 阅读 · 5 评论 -
Python爬虫基础教程,详细讲解(含爬取文字为乱码解决办法、反爬虫机制解决办法)
Python爬虫学习笔记1.准备工具获取Python request第三方库方法一:同时按win+r,输入cmd,打开cmd后输入:‘pip install requests’进行安装注意:下载速度慢/下载失败大多数是因为没有设置镜像,镜像的设置如下。一、打开cmd,输入:sudo pip install -i https://pypi.tuna.tsinghua.edu.cn/simple #这里是用的清华镜像,下方有其他镜像可以使用清华:https://pypi.tuna.tsinghua原创 2020-08-14 16:04:23 · 1311 阅读 · 0 评论