![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫基本概念
彡倾灬染|
这个作者很懒,什么都没留下…
展开
-
使用正则表达式步骤
使用正则表达式步骤:s = r'ab\ncde' # r 防止转义print(s) # abcde1.导入re模块import re定义字符串base_str = 'he6ll2ow7or9ld'base_str1 = '67he6ll2ow7or9ld'2.定义匹配规则(需要使用compile()方法)pattern = re.compile(r'\d+')pattern2 = re.compile(r'\d')3.开始匹配3.1 match(‘待匹配的字符串’) 只原创 2020-07-23 16:36:30 · 618 阅读 · 0 评论 -
正则表达式知识(聚焦爬虫需要用到)
1.概念:正则表达式:又称’规则表达式’,通常被用来检索、替换等符合某个模式(规则)的文本.正则表达式是对字符串此操作的一种逻辑公式,就是用事先定义好的一些特定字符以及这些特定字符的组合,组成一个规则的字符串这个规则的字符串表达出对字符串的一种过滤逻辑2.使用正则表达式,我们可以达到:1.给定的字符串是否符合正则表达式的过滤逻辑2.通过正则表达式,从文本中获取我们想要的内容3.正则表达式的规则构成:普通字符+元字符(有特殊含义的字符)4.元字符:1.匹配边界: ^ : 匹配行首原创 2020-07-23 15:28:02 · 111 阅读 · 0 评论 -
爬虫基本概念(新手必看)
1.爬虫是什么?网络爬虫是一种按照一定的规则、自动的抓取万维网信息的脚本或者程序简单来说:爬虫是用事先写好的程序去抓取网络上的数据,这样的程序叫爬虫2.爬虫的分类按照使用场景来分,可以分为两类:通用爬虫 和 聚焦爬虫通用爬虫:搜索引擎爬虫(百度)聚焦爬虫:获取想要的数据3.爬虫就是在模仿人类的操作4.爬虫的知识体系和相关工具(必须掌握)爬虫的知识体系和相关工具 1.概念 利用HTTP协议,从网站采集、提取数据的过程 2.知识结构及路线图 1)web原创 2020-07-22 18:33:26 · 2024 阅读 · 0 评论