爬虫
文章平均质量分 76
不良使
你无法游向新的地平线,除非你有勇气告别海滩
展开
-
python 爬虫(正则)
首先通过url模拟浏览器向服务器发送请求 ----> 服务器返回数据 ---->正则提取数据 ----->数据中还有url ------>再次通过发安徽数据的url进行数据爬取 ----> 正则解析---->获取数据。注意:解析有很多方法,正则、xpath等解析方法。............原创 2022-06-11 10:00:35 · 2376 阅读 · 34 评论 -
秒懂正则匹配,领略正则魅力
正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。例如:runoo+b,可以匹配 runoob、runooob、runoooooob 等,+ 号代表前面的字符必须至少出现一次(1次或多次)。runoob,可以匹配 runob、runoob、runoooooob 等, 号代表前面的字符可以不出现,也可以出现一次或者多次(0次、或1次、或多次)。colou?r 可以.原创 2022-05-25 08:34:47 · 16362 阅读 · 56 评论 -
零基础爬虫之http协议
🍖🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖🍖🍖🍖🍖🍖🍖 作者 : 不良使🍖🍖🍖🍖🍖 .原创 2022-05-22 12:43:24 · 6799 阅读 · 70 评论 -
反爬反反爬,总是找不到,拿来做个备份,方便后面查看
反爬与反反爬策略学习目录:一、常见反爬策略二、反反爬策略学习内容:" 爬虫与反爬虫永远是相生相克的:当爬虫知道了反爬策略就可以制定反-反爬+策略,同样地,网站知道了爬虫的反-反爬策略就可以制定反-反-反爬策略。正可谓是道高一尺魔高一丈,两者之间的斗争是永远不会结束的。"一、常见反爬策略反爬虫,是指对扫描器中的网络爬虫环节进行反制,通过一些反制策略来阻碍或干扰爬虫的正常爬行,从而间接地起到防御目的。比如当我们在某一网站浏览过快时,这种快速浏览的行为很接近爬虫,系统往往就会要求输入验证码。在原创 2022-04-04 11:46:18 · 3459 阅读 · 30 评论 -
爬虫 xpath() 基础+提升 必备秘籍 超详细 建议保留
爬虫匹配中的一些字符所代表的意思TODO 表达式 描述TODO nodename 选取此节点中的全部接节点TODO / 从当前节点选取直接子节点TODO // 从当前节点选取子孙节点TODO . 选取当前节点TODO ..原创 2022-03-04 13:17:27 · 1630 阅读 · 13 评论 -
python 爬虫 贪婪算法和非贪婪算法 match()
python 爬虫 贪婪算法和非贪婪算法**贪婪算法 (.*):贪婪,就是尽可能匹配多的,一般情况下尽可能多的匹配。非贪婪(.*?),非贪婪,与贪婪相反,尽可能少的匹配。**可能内容有些晦涩难懂,下面用例子来说明一下。# TODO 鸟欲高飞,必先展翅# TODO 向前的人 :Jhonimport recontent="Hello 11034435 Welcome to play with me This is a Demo原创 2022-03-03 01:00:00 · 1378 阅读 · 0 评论 -
爬虫第一天 0_0
**URL :统一资源定位符URI : 统一资源标志符(URI包括一个子类URN)URN :统一资源名称**注意:每一个URL都是URI,但是不是每个URI都是URLurn:isbn:041450523指定一本书的统一标志名称,但是没有指定从哪里定位一本书(不能像连接一样直接访问)网页随便位置右键点击检查就可以看见超文本语言为后面爬虫做准备...原创 2022-02-23 10:05:20 · 357 阅读 · 0 评论