爬虫基础知识

最新推荐文章于 2024-07-02 13:36:16 发布

小杠杆儿

最新推荐文章于 2024-07-02 13:36:16 发布

阅读量170

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/XiaoXiao_Lin/article/details/110039142

版权

需要的第三方库：

from bs4 import BeautifulSoup #网页解折:获取数据
import re #正则表达式，进行文字匹配
import urllib.request , urllib.error #制定URL，获取网页数据
import xlwt #进exceL操作
import sqlite3 #进SQLite数据库操作

#获取一个post请求：

超时处理：

获取请求头：可以获取单个头信息，只需将要查的key放入括号

封装请求，伪装成浏览器

解析网页：

文档搜索：

用正则表达式搜索：

方法: 传入一个函数(方法) ,根据函数的要求来搜索( 了解）

用kwargs参数搜索：

用text参数搜索：

用limit参数搜索：

用css选择器搜索：

爬取详情：

正则表达式的常用操作符

Re库主要功能函数

正则表达式可以包含-些可选标志修饰符来控制匹配的模式。修饰符被指定为-个可选的标志。多个标志可以诵过按位OR(|)它们来指定.如re.l | re.M被设置成I和M标志:

创建模式对象：

没有模式对象：

sub：

解析网址中的中文汉字：

xlmt库：

链接sqlite数据库：

插入数据：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。