- 博客(2)
- 收藏
- 关注
原创 python爬虫
爬虫基本原理1.网页获取构造一个请求并发送给服务器,然后接收到响应并对其进行解析,python中有urllib、requests等库来完成HTTP请求操作。2.提取信息获取网页的源代码后,接下来就是分析源代码,从中提出我们想要的数据,一般应采用正则表达式这一万能方法,但是有一些网页的结构具有一定规则,所以python中有Beautiful、Soup、pyquery、lxml等库从源代码中提取信息。3.保存数据提取数据后保存数据形式多样(txt、json、数据库等)。实
2022-11-07 17:10:41 370 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人