python爬虫基础

一、网络爬虫
简单来说,网络爬虫就是自动从互联网中定向或不定向地采集信息的一种程序
网络爬虫有很多种类型,常用的有通用网络爬虫、聚集网络爬虫等。
1、网络爬虫做什么?
1).搜索引擎
2).采集金融数据
3).采集商品数据
4).自动过滤广告数据:正则表达式,scapy表达式
5).采集竞争对手的客户数据
6).采集行业相关数据,进行数据分析

在这里插入图片描述
二 、.正则表达式
1.原子是把正则表达式中最基本的组成单位,每个正则表达式中至少要包含一个原子。常见的类型:
a.普通字符作为原子
b.非打印字符作为原子
Eg:#\n换行符\t 制表符
c.原子表
[]提取原子表中任意一个字符
d.通用字符作为原子
Eg:\w匹配任何一个字母数字和下划线
\d匹配十进制数
\s匹配任意一个空白字符
元字符:
正则表达式中具有一些特殊含义的字符
.匹配除换行符外的任意字符
^开始位置
&结束位置
* 0 \1\n
? 0\1
+ 1\n
{n}恰巧n次
{n,}至少n次
{n,m}至少n至多m
|模式选择或
()模式单元
模式修正符
I匹配时忽略大小写*
M多行匹配*
L本地化识别匹配
U Unicode
S 让.匹配换行符*
2、贪婪模式与懒惰模式
贪婪模式的核心尽可能多的匹配(默认),比较模糊
懒惰模式的核心尽可能少的匹配。(加?),比较精准
3、正则表达式函数:实现功能的
re.search()如果有则提取出来,没有返回none,从任何位置都可以。提取一个结果。
re.match()从头开始匹配,如果有则提取出来,没有返回none。
全局匹配函数findall
实列:匹配.cn .cm
String =”百度首页
Pat=”[a-zA-Z]+.//[^\s]*[.com|cn]”
实列:匹配电话号
Pat=”\d{3}-\d{8}|\d{4}-\d{7}”

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值