需要的第三方库:
from bs4 import BeautifulSoup #网页解折:获取数据
import re #正则表达式,进行文字匹配
import urllib.request , urllib.error #制定URL,获取网页数据
import xlwt #进exceL操作
import sqlite3 #进SQLite数据库操作
#获取一个post请求:
超时处理:
获取请求头:可以获取单个头信息,只需将要查的key放入括号
封装请求,伪装成浏览器
解析网页:
文档搜索:
用正则表达式搜索:
方法: 传入一个函数(方法) ,根据函数的要求来搜索( 了解)
用kwargs参数搜索:
用text参数搜索:
用limit参数搜索:
用css选择器搜索:
爬取详情:
正则表达式的常用操作符
Re库主要功能函数
正则表达式可以包含-些可选标志修饰符来控制匹配的模式。 修饰符被指定为-个可选的标志。多个标志可以诵过按位OR(|)它们来指定.如re.l | re.M被设置成I和M标志:
创建模式对象:
没有模式对象:
sub:
解析网址中的中文汉字:
xlmt库:
链接sqlite数据库:
插入数据: