Python爬虫学习
文章平均质量分 76
马小胖测试历险记
卑微测试从业者,愿生活里没有bug!
展开
-
跟随B站波波老师学爬虫(五)——代理
一、代理的引入1、我们爬虫经常会遇到封IP的情况,也就是我们去爬取一个网站时候,一般都会有反爬措施,当我们同一个ip去请求次数超过一定次数,他就会限制你的请求,所以我们要解决这种情况,就出现了代理服务器。2、代理服务器:本机通过将请求发送给代理服务器,由他进行转发,再进行请求,那么我们爬取的目标对应的服务器识别的ip就是代理服务器的ip,解决ip被封的情况3、代理的作用:突破自身IP访问的限制、隐藏自身真实的IP4、代理的类型:http:只能应用于http https:只能应用于htt原创 2021-01-10 19:49:57 · 669 阅读 · 0 评论 -
跟随B站波波老师学爬虫(四)——Xpath解析数据实例
一、Xpath解析基础1、xpath表达式(层级)-/:表示的是从根结点开始定位。一个/表示一个层级。 -//:表示的是多个层级。可以从任意位置开始定位。 -属性定位://meta[@charset=“utf-8”] 通用写法://tag[@attrName=“attrValue”] -索引定位://tag[@attrName=“attrValue”]/tag[n]索引是从1开始的 -取文本:/text():获取的是标签中直系的文本内容 //text():获取的是标签中非直系的文本内容原创 2021-01-07 20:46:22 · 637 阅读 · 0 评论 -
跟随B站波波老师学爬虫(三)——bf4数据解析
一、bf4数据解析原理原创 2021-01-03 10:43:58 · 1406 阅读 · 0 评论 -
跟随B站波波老师学爬虫(二)——正则表达式
一、正则表达式基础---练习正则表达式的小网站https://regex101.com/1、.表示除了换行符以外的任何单个字符原创 2021-01-02 17:42:44 · 687 阅读 · 0 评论 -
跟随B站-波波老师学爬虫(一)——requests
一、爬虫的理解与分类1、爬虫:通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程2、爬虫分类:通用爬虫(抓取系统中重要组成部分,抓取的是一整张页面数据) 聚焦爬虫(抓取页面中特定的局部内容) 增量式爬虫(只抓取网站中更新的数据)3、爬虫的基本步骤前期须知:----用到requests库模拟浏览器请求,需install--requests----存储用到文件操作,需install--os----如需爬取json类型数据,需install--json步骤分析:想要原创 2021-01-01 20:54:57 · 894 阅读 · 3 评论