爬虫进阶（基础一）

Roy_Allen

已于 2023-01-04 16:49:26 修改

阅读量483

点赞数 2

分类专栏：一起爬文章标签：爬虫 python

于 2023-01-02 16:57:12 首次发布

本文链接：https://blog.csdn.net/Roy_Allen/article/details/128374480

版权

一起爬专栏收录该内容

9 篇文章 8 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了爬虫的基础知识，包括cookie、模拟登陆、代理和防盗链。详细讲解了如何使用session处理cookie，以及如何应对动态参数。还探讨了代理的匿名度和类型，以及如何获取和使用代理。此外，文章提到了模拟登陆的流程，分析了防盗链的原理并展示了如何破解。最后，文章深入讨论了异步爬虫，包括协程和asyncio模块，以及如何通过异步爬虫提高爬虫效率。

摘要由CSDN通过智能技术生成

文章目录

简介
cookie
- 爬取雪球热帖
代理
模拟登陆
防盗链
异步爬虫
- 协程
- asyncio
M3U8
- HLS
- 爬取
selenium
MySQL
MongoDB
Redis

简介

这个系列分四部分
- 基础进阶
- Scrapy 框架
- 逆向分析
- 实战运用
先补充一些爬虫需要的基础知识和技能

预热，爬取个简历模板网站

import requests
from lxml import etree
import os
headers = {
     
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36',

}
# 创建一个新的文件夹
dirName = 'jianli&#