爬虫原理解读,入门级

事情经过

我们知道,python 很适合拿来编写一些小的爬虫,帮我们做一些下载的工具等,那么这篇文章可以带领第一次接触的朋友了解其中的原理

总体思路

1、读取用户给的Cookie.txt,对每一个Cookie构造一个请求头(header)
2、利用构造好的请求头和数据包获取列表文件(一般都是js文件)
3、对列表文件进行解析(常用解析工具Re、Xpath、Jsonpath),并保存结果。

预备知识

  1. Requests
    网络请求目前主要有两种方法:get()方法或者post()方法
    主要有这两个方法一定要熟练掌握:
    Requests.get(url,header,params)
    url:请求链接
    header:请求头
    params:请求参数
    Requests.post(url,header,params,data)
    data:请求数据
    其他参数同get
    用法详情点击:这里

  2. 浏览器的开发模式(F12)
    开发者模式可以查到请求的一切数据,请求头,Cookie,数据包
    开发者模式
    开发者模式

  3. 常见的解析工具要熟练使用,这次主要使用的有Re(正则表达式)
    Re里面有很多匹配方法,比较常用的是re.findall方法。在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。
    注意: match 和 search 是匹配一次 findall 匹配所有。
    findall(string[, pos[, endpos]])
    参数:
    string : 待匹配的字符串。
    pos : 可选参数,指定字符串的起始位置,默认为 0。
    endpos : 可选参数,指定字符串的结束位置,默认为字符串的长度。
    详细用法点击:这里
    用法举例:

import re
pattern = re.compile(r'\d+')   # 查找数字
result1 = pattern.findall('runoob 123 google 456')
result2 = pattern.findall('run88oob123google456', 0, 10)

输出:

['123', '456']
['88', '12']

实战部分

这部分有时间再继续,等前面基础学好了,思路也有了,实现起来很简单,本质就是构造参数。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值