纯小白爬虫篇-以学促学

前言:应当算是新人文档,“白嫖”了很久的 CSDN 各位大佬,决定给后来的人留点什么,也给自己留下些什么


前言

提示:这里是本文要记录的大概内容:

学习这项技术的 “初衷” 是为了满足一些个人需求,很多优美的文章,很多优质的视频,很多有用的帖子,因为各种不可抗拒因素,时常会被下架,删除,或者作者想退坑等等,因此决定对自己进行定制学习。


提示:以下是本篇文章正文内容

爬虫 是什么?

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 - - - - - 来自 百度百科

必要信息的学习

数据解析概论

  1. re解析 - - - 重点
  2. bs4解析
  3. xpath解析 -重点
  4. pyquery解析
    结果为导向,四种方式混用也可,先考虑能用再考虑性能

正则表达式

在线正则表达式测试:

  1. OSCHINA(自己用的这个,怎么选随缘)
  2. 菜鸟工具

元字符 - - 具有固定意义的特殊字符

符号用法
.匹配除换行符以外的任意字符
\w匹配数字或字母或·下划线
\s匹配任意的空白符(用得少)
\d匹配数字
\n匹配一个换行符(用得少)
\t匹配一个制表符(用得少)
^匹配字符串的开始
$匹配字符串的结尾
\W匹配非数字或字母或下划线
\S匹配任意的空白符(用得少)
\D匹配非数字
a|b匹配字符a或者字符b
( )匹配括号内的表达式,也表示一个组
[…]匹配字符组中的字符
[^…]匹配字符组中的所有字符

量词 - - 控制前面元字符出现的次数

符号用法
*重复零次或更多次 - - 开始和结束算一次,算在匹配的最后面 - - 侧重更多次(结果)
+重复一次或更多次 - - 侧重更多次(结果)
重复零次或一次 - - 侧重一次
{n}重复n次
{n,}重复n次或更多次
{n,m}重复n次到m次

狡辩:乘法号和加号两个加空格会变成其他样式,MD编辑器还不熟悉,非常抱歉,上下格式不统一

贪婪匹配和惰性匹配

符号用法
.*贪婪匹配 - - 尽可能多的匹配结果
.*?惰性匹配 - - 尽可能少的匹配结果 - → 回溯

总结

MD这玩意真难用,来个图给看客看一下,截图来自这位哥哥的,再说个开心的事情,这个图中间的代码只在刷新的一瞬间显示,感谢各位看到这里。在这里插入图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值