【整理】python 3.x爬虫

主要内容来源于极客学院

利用requests模块构建
import requests

在requests模块中有两个函数,一个get,获取数据,一个post,提交表单。

html = requests.get(’ #url# ‘, headers) # 发送请求,headers用于模仿浏览器。获取header步骤:打开一个网址,审查元素,network,找到请求头 ‘User-Agent…’,复制
html.encoding = ‘utf-8’ #重新编码
webpage = html.text #读取网页内容,转化为text.

浏览web内容,总结目标的展示规律,然后用正则表达式匹配,用re模块的功能获取

import re
aim_ text = re.findall(’ xxxxxx_(.*?)xxx‘, webpage, re.S)

加载re模块后,一般有三种方式查找内容,re.findall, re.search, re.sub .
re.findall 匹配所有符合规律的内容,返回包含结果的列表
re.search 匹配并提取第一个符合规律的内容,返回一个正则表达式对象
re.sub 替换符合规律的内容,返回替换的值

常用正则表达式:
. : 匹配任意字符,换行符\n除外 (在上面的re.findall语句中的re.S使得 . 可以匹配换行符)
* :匹配前一个字符0次或无限次
?:匹配前一个字符0次或1次
.* : 贪心算法,尽可能多的匹配,直到遇到\n符
.*?:非贪心算法
():括号内的数据作为结果返回
\d : 匹配数字
\D :匹配任意非数字

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值