爬虫基本概念
彡倾灬染|
这个作者很懒,什么都没留下…
展开
-
使用正则表达式步骤
使用正则表达式步骤: s = r'ab\ncde' # r 防止转义 print(s) # abcde 1.导入re模块 import re 定义字符串 base_str = 'he6ll2ow7or9ld' base_str1 = '67he6ll2ow7or9ld' 2.定义匹配规则(需要使用compile()方法) pattern = re.compile(r'\d+') pattern2 = re.compile(r'\d') 3.开始匹配 3.1 match(‘待匹配的字符串’) 只原创 2020-07-23 16:36:30 · 676 阅读 · 0 评论 -
正则表达式知识(聚焦爬虫需要用到)
1.概念: 正则表达式:又称’规则表达式’,通常被用来检索、替换等符合某个模式(规则)的文本. 正则表达式是对字符串此操作的一种逻辑公式,就是用事先定义好的一些特定字符以及这些特定字符的组合,组成一个规则的字符串 这个规则的字符串表达出对字符串的一种过滤逻辑 2.使用正则表达式,我们可以达到: 1.给定的字符串是否符合正则表达式的过滤逻辑 2.通过正则表达式,从文本中获取我们想要的内容 3.正则表达式的规则构成:普通字符+元字符(有特殊含义的字符) 4.元字符: 1.匹配边界: ^ : 匹配行首原创 2020-07-23 15:28:02 · 131 阅读 · 0 评论 -
爬虫基本概念(新手必看)
1.爬虫是什么? 网络爬虫是一种按照一定的规则、自动的抓取万维网信息的脚本或者程序 简单来说:爬虫是用事先写好的程序去抓取网络上的数据,这样的程序叫爬虫 2.爬虫的分类 按照使用场景来分,可以分为两类:通用爬虫 和 聚焦爬虫 通用爬虫:搜索引擎爬虫(百度) 聚焦爬虫:获取想要的数据 3.爬虫就是在模仿人类的操作 4.爬虫的知识体系和相关工具(必须掌握) 爬虫的知识体系和相关工具 1.概念 利用HTTP协议,从网站采集、提取数据的过程 2.知识结构及路线图 1)web原创 2020-07-22 18:33:26 · 2081 阅读 · 0 评论
分享