s1: python3简易正则爬虫

最新推荐文章于 2021-05-03 10:22:01 发布

Lentyu

最新推荐文章于 2021-05-03 10:22:01 发布

阅读量178

点赞数

分类专栏： python 文章标签： python 爬虫正则

本文链接：https://blog.csdn.net/u012961290/article/details/79385977

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Tools

python3、pycharm

Packages

requests---http处理包

re---调用正则

爬虫过程

请求网页-源码查找所需信息-正则表达-提取信息输出

简易正则表达：模糊字段用 .*? 代替，所要提取部分用 (.*?) 代替

举例

import requests
import re
#定义函数
def get_info():#定义爬取网页列表
    #请求网页
   response = requests.get('http://.....')
    response.encoding = 'utf-8'#网页F12，charset看编码格式，设置查看网页编码格式
     #源码查找所需信息   
   result = response.text
   print(result)     
    #正则表达  
    reg = re.compile(r'<a href=".*?" title="(.*?)" class="image-link')
    #提取信息输出
    info = re.findall(reg,result)
    print(info)
    return get_info

 get_info()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Lentyu

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
s1: python3简易正则爬虫

Toolspython3、pycharmPackagesrequests---http处理包re---调用正则爬虫过程请求网页-源码查找所需信息-正则表达-提取信息输出简易正则表达：模糊字段用 .*? 代替，所要提取部分用 (.*?) 代替举例import requestsimport re#定义函数def get_info():#定义爬取网页列表 #请求网页 response...
复制链接

扫一扫