爬虫
文章平均质量分 93
爬虫
小嗷犬
CSDN人工智能领域优质创作者,阿里云专家博主。天池竞赛两段Top10,ICPC区域赛铜,数学建模国赛国二,GPLT天梯赛国三。
展开
-
Python 正则匹配:re库的使用
正则表达式是一种描绘字符串的匹配模式,可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。学会了正则表达式,我们就可以定向查找网页中的某些内容了,快去结合爬虫练练手吧。原创 2022-10-06 12:07:32 · 1663 阅读 · 1 评论 -
Python 反爬虫与反反爬虫
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。大家可以理解为在网络上爬行的一只蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛,如果它遇到自己的猎物(所需要的资源),那么它就会将其抓取下来。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的链接,那么它就可以爬到另一张网上来获取数据。原创 2022-09-08 22:26:31 · 2761 阅读 · 3 评论 -
Python 页面解析:Beautiful Soup库的使用
简称BS4(其中 4 表示版本号)是一个 Python 中常用的页面解析库,它可以从 HTML 或 XML 文档中快速地提取指定的数据。相比于之前讲过的lxml库,更加简单易用,不像正则和 XPath 需要刻意去记住很多特定语法,尽管那样会效率更高更直接。对大多数 Python 使用者来说,好用会比高效更重要。库为第三方库,需要我们通过pipBS4解析页面时需要依赖文档解析器,所以还需要一个文档解析器。Python 自带了一个文档解析库, 但是其解析速度稍慢,所以我们结合上篇内容(原创 2022-09-08 15:47:06 · 505 阅读 · 2 评论 -
Python 文档解析:lxml库的使用
lxml 是 Python 常用的文档解析库,能够高效地解析 HTML/XML 文档,常用于 Python 爬虫。lxml 为第三方库,需要我们通过pip命令安装。这个爬虫程序爬取了CSDN首页的所有.jpg、.jpeg、.png格式的图片,快来自己尝试一下吧!原创 2022-09-08 00:54:39 · 922 阅读 · 4 评论 -
Python 网页请求:requests库的使用
requests是 Python 中比较常用的网页请求库,主要用来发送 HTTP 请求,在使用爬虫或测试服务器响应数据时经常会用到,使用起来十分简洁。requests为第三方库,需要我们通过pip方法描述发送 DELETE 请求到指定 url发送 GET 请求到指定 url发送 HEAD 请求到指定 url发送 PATCH 请求到指定 url发送 POST 请求到指定 url发送 PUT 请求到指定 url发送指定的请求方到指定 url每次调用requests请求之后,会返回一个。原创 2022-09-07 22:54:16 · 1741 阅读 · 1 评论