爬虫原理解读，入门级

幻影123！

已于 2022-12-04 08:27:56 修改

阅读量158

点赞数

分类专栏：爬虫文章标签：爬虫 python 开发语言

于 2020-02-17 09:23:57 首次发布

本文链接：https://blog.csdn.net/qq_33909788/article/details/104352689

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

事情经过

我们知道，python 很适合拿来编写一些小的爬虫，帮我们做一些下载的工具等，那么这篇文章可以带领第一次接触的朋友了解其中的原理

总体思路

1、读取用户给的Cookie.txt，对每一个Cookie构造一个请求头（header）
2、利用构造好的请求头和数据包获取列表文件（一般都是js文件）
3、对列表文件进行解析（常用解析工具Re、Xpath、Jsonpath），并保存结果。

预备知识

Requests
网络请求目前主要有两种方法：get()方法或者post()方法
主要有这两个方法一定要熟练掌握：
Requests.get(url,header,params)
url:请求链接
header:请求头
params:请求参数
Requests.post(url,header,params,data)
data:请求数据
其他参数同get
用法详情点击：这里
浏览器的开发模式（F12）
开发者模式可以查到请求的一切数据，请求头，Cookie，数据包
常见的解析工具要熟练使用，这次主要使用的有Re（正则表达式）
Re里面有很多匹配方法，比较常用的是re.findall方法。在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。
注意： match 和 search 是匹配一次 findall 匹配所有。
findall(string[, pos[, endpos]])
参数：
string : 待匹配的字符串。
pos : 可选参数，指定字符串的起始位置，默认为 0。
endpos : 可选参数，指定字符串的结束位置，默认为字符串的长度。
详细用法点击：这里
用法举例：

import re
pattern = re.compile(r'\d+')   # 查找数字
result1 = pattern.findall('runoob 123 google 456')
result2 = pattern.findall('run88oob123google456', 0, 10)

输出：

['123', '456']
['88', '12']

实战部分

这部分有时间再继续，等前面基础学好了，思路也有了，实现起来很简单，本质就是构造参数。

幻影123！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫原理解读，入门级

我们知道，python 很适合拿来编写一些小的爬虫，帮我们做一些下载的工具等，那么这篇文章可以带领第一次接触的朋友了解其中的原理1、读取用户给的Cookie.txt，对每一个Cookie构造一个请求头（header）2、利用构造好的请求头和数据包获取列表文件（一般都是js文件）3、对列表文件进行解析（常用解析工具Re、Xpath、Jsonpath），并保存结果。
复制链接

扫一扫

专栏目录