【整理】python 3.x爬虫

最新推荐文章于 2024-05-02 23:20:29 发布

bellum

最新推荐文章于 2024-05-02 23:20:29 发布

阅读量341

点赞数

分类专栏： python 文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_33897286/article/details/51188659

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

主要内容来源于极客学院

利用requests模块构建
import requests

在requests模块中有两个函数，一个get，获取数据，一个post，提交表单。

html = requests.get(’ #url# ‘, headers) # 发送请求,headers用于模仿浏览器。获取header步骤：打开一个网址，审查元素，network，找到请求头 ‘User-Agent…’，复制
html.encoding = ‘utf-8’ #重新编码
webpage = html.text #读取网页内容，转化为text.

浏览web内容，总结目标的展示规律，然后用正则表达式匹配，用re模块的功能获取

import re
aim_ text = re.findall(’ xxxxxx_(.*?)xxx‘, webpage, re.S)

加载re模块后，一般有三种方式查找内容，re.findall, re.search, re.sub .
re.findall 匹配所有符合规律的内容，返回包含结果的列表
re.search 匹配并提取第一个符合规律的内容，返回一个正则表达式对象
re.sub 替换符合规律的内容，返回替换的值

常用正则表达式：
. : 匹配任意字符，换行符\n除外（在上面的re.findall语句中的re.S使得 . 可以匹配换行符）
* ：匹配前一个字符0次或无限次
？：匹配前一个字符0次或1次
.* : 贪心算法，尽可能多的匹配，直到遇到\n符
.*?：非贪心算法
（）：括号内的数据作为结果返回
\d ：匹配数字
\D ：匹配任意非数字

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【整理】python 3.x爬虫

主要内容来源于极客学院利用requests模块构建 import requestshtml = requests.get(’ #url# ‘, headers) # 发送请求,headers用于模仿浏览器。获取header步骤：打开一个网址，审查元素，network，找到请求头 ‘User-Agent…’，复制 html.encoding = ‘utf-8’ #重新编码 webpage =
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。