事情经过
我们知道,python 很适合拿来编写一些小的爬虫,帮我们做一些下载的工具等,那么这篇文章可以带领第一次接触的朋友了解其中的原理
总体思路
1、读取用户给的Cookie.txt,对每一个Cookie构造一个请求头(header)
2、利用构造好的请求头和数据包获取列表文件(一般都是js文件)
3、对列表文件进行解析(常用解析工具Re、Xpath、Jsonpath),并保存结果。
预备知识
-
Requests
网络请求目前主要有两种方法:get()方法或者post()方法
主要有这两个方法一定要熟练掌握:
Requests.get(url,header,params)
url:请求链接
header:请求头
params:请求参数
Requests.post(url,header,params,data)
data:请求数据
其他参数同get
用法详情点击:这里 -
浏览器的开发模式(F12)
开发者模式可以查到请求的一切数据,请求头,Cookie,数据包
-
常见的解析工具要熟练使用,这次主要使用的有Re(正则表达式)
Re里面有很多匹配方法,比较常用的是re.findall方法。在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。
注意: match 和 search 是匹配一次 findall 匹配所有。
findall(string[, pos[, endpos]])
参数:
string : 待匹配的字符串。
pos : 可选参数,指定字符串的起始位置,默认为 0。
endpos : 可选参数,指定字符串的结束位置,默认为字符串的长度。
详细用法点击:这里
用法举例:
import re
pattern = re.compile(r'\d+') # 查找数字
result1 = pattern.findall('runoob 123 google 456')
result2 = pattern.findall('run88oob123google456', 0, 10)
输出:
['123', '456']
['88', '12']
实战部分
这部分有时间再继续,等前面基础学好了,思路也有了,实现起来很简单,本质就是构造参数。