爬虫基础知识

需要的第三方库:

from bs4 import BeautifulSoup  #网页解折:获取数据
import re  #正则表达式,进行文字匹配
import urllib.request , urllib.error  #制定URL,获取网页数据
import xlwt   #进exceL操作
import sqlite3  #进SQLite数据库操作

#获取一个post请求:

超时处理:

获取请求头:可以获取单个头信息,只需将要查的key放入括号

封装请求,伪装成浏览器

解析网页:

文档搜索:

用正则表达式搜索:

方法: 传入一个函数(方法) ,根据函数的要求来搜索( 了解)

用kwargs参数搜索:

用text参数搜索:

用limit参数搜索:

用css选择器搜索:

爬取详情:

正则表达式的常用操作符

Re库主要功能函数

正则表达式可以包含-些可选标志修饰符来控制匹配的模式。 修饰符被指定为-个可选的标志。多个标志可以诵过按位OR(|)它们来指定.如re.l | re.M被设置成I和M标志:

创建模式对象:

没有模式对象:

sub:

解析网址中的中文汉字:

 

xlmt库:

链接sqlite数据库:

 

插入数据:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值