Python爬虫学习
文章平均质量分 76
马小胖测试历险记
卑微测试从业者,愿生活里没有bug!
展开
-
跟随B站波波老师学爬虫(五)——代理
一、代理的引入 1、我们爬虫经常会遇到封IP的情况,也就是我们去爬取一个网站时候,一般都会有反爬措施,当我们同一个ip去请求次数超过一定次数,他就会限制你的请求,所以我们要解决这种情况,就出现了代理服务器。 2、代理服务器:本机通过将请求发送给代理服务器,由他进行转发,再进行请求,那么我们爬取的目标对应的服务器识别的ip就是代理服务器的ip,解决ip被封的情况 3、代理的作用:突破自身IP访问的限制、隐藏自身真实的IP 4、代理的类型: http:只能应用于http https:只能应用于htt原创 2021-01-10 19:49:57 · 574 阅读 · 0 评论 -
跟随B站波波老师学爬虫(四)——Xpath解析数据实例
一、Xpath解析基础 1、xpath表达式(层级) -/:表示的是从根结点开始定位。一个/表示一个层级。 -//:表示的是多个层级。可以从任意位置开始定位。 -属性定位://meta[@charset=“utf-8”] 通用写法://tag[@attrName=“attrValue”] -索引定位://tag[@attrName=“attrValue”]/tag[n]索引是从1开始的 -取文本:/text():获取的是标签中直系的文本内容 //text():获取的是标签中非直系的文本内容原创 2021-01-07 20:46:22 · 566 阅读 · 0 评论 -
跟随B站波波老师学爬虫(三)——bf4数据解析
一、bf4数据解析原理原创 2021-01-03 10:43:58 · 1267 阅读 · 0 评论 -
跟随B站波波老师学爬虫(二)——正则表达式
一、正则表达式基础 ---练习正则表达式的小网站 https://regex101.com/ 1、.表示除了换行符以外的任何单个字符原创 2021-01-02 17:42:44 · 634 阅读 · 0 评论 -
跟随B站-波波老师学爬虫(一)——requests
一、爬虫的理解与分类 1、爬虫:通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程 2、爬虫分类: 通用爬虫(抓取系统中重要组成部分,抓取的是一整张页面数据) 聚焦爬虫(抓取页面中特定的局部内容) 增量式爬虫(只抓取网站中更新的数据) 3、爬虫的基本步骤 前期须知: ----用到requests库模拟浏览器请求,需install--requests ----存储用到文件操作,需install--os ----如需爬取json类型数据,需install--json 步骤分析:想要原创 2021-01-01 20:54:57 · 811 阅读 · 3 评论