python爬虫基础

最新推荐文章于 2024-09-16 07:18:09 发布

银角大王等唐僧的日子

最新推荐文章于 2024-09-16 07:18:09 发布

阅读量182

点赞数

分类专栏： Python 文章标签：爬虫 Python

本文链接：https://blog.csdn.net/qq_43530218/article/details/97360931

版权

Python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、网络爬虫
简单来说，网络爬虫就是自动从互联网中定向或不定向地采集信息的一种程序
网络爬虫有很多种类型，常用的有通用网络爬虫、聚集网络爬虫等。
1、网络爬虫做什么？
1）.搜索引擎
2）.采集金融数据
3）.采集商品数据
4).自动过滤广告数据:正则表达式，scapy表达式
5).采集竞争对手的客户数据
6).采集行业相关数据，进行数据分析

在这里插入图片描述
二、.正则表达式
1.原子是把正则表达式中最基本的组成单位，每个正则表达式中至少要包含一个原子。常见的类型：
a.普通字符作为原子
b.非打印字符作为原子
Eg：#\n换行符\t 制表符
c.原子表
[]提取原子表中任意一个字符
d.通用字符作为原子
Eg：\w匹配任何一个字母数字和下划线
\d匹配十进制数
\s匹配任意一个空白字符
元字符：
正则表达式中具有一些特殊含义的字符
.匹配除换行符外的任意字符
^开始位置
&结束位置
* 0 \1\n
？ 0\1
+ 1\n
{n}恰巧n次
{n，}至少n次
{n，m}至少n至多m
|模式选择或
（）模式单元
模式修正符
I匹配时忽略大小写*
M多行匹配*
L本地化识别匹配
U Unicode
S 让.匹配换行符*
2、贪婪模式与懒惰模式
贪婪模式的核心尽可能多的匹配（默认），比较模糊
懒惰模式的核心尽可能少的匹配。（加?），比较精准
3、正则表达式函数：实现功能的
re.search()如果有则提取出来，没有返回none，从任何位置都可以。提取一个结果。
re.match（）从头开始匹配，如果有则提取出来，没有返回none。
全局匹配函数findall
实列：匹配.cn .cm
String =”百度首页”
Pat=”[a-zA-Z]+.//[^\s]*[.com|cn]”
实列：匹配电话号
Pat=”\d{3}-\d{8}|\d{4}-\d{7}”