1、关于爬虫的基础知识

一、打开网页,按下F12进入控制台,点击clear清空所有记录,然后再搜索栏输入百度回车

二、一个完整的请求包含哪些内容

a、请求方式,一般可分为post、get

b、请求头,里面含有Cookie 、User-Agent等重要信息

Cookie指某些网站为了辨别用户身份、进行会话跟踪而存储在用户本地终端上的数据。

c、请求体

d、响应,包含三部分:响应状态码、响应头、响应体

三、网页爬虫

1、调用python中的urllib、requests等模块能帮我们实现该功能。      ------获取完整的网页信息

2、使用正则表达式选取我们想要提取的数据,网页接口规则包括:网页节点属性、CSS选择器或XPath来提取网页信息的库,如Beautiful Soup、pyquery、lxml等。      ------获取想要的数据信息

3、我们保存数据为HTML格式时,现在的网页大部分采用的都是Ajax、前端模块化工具来构建的,可能整个网页都是由JavaScript渲染的,HTML代码就相当于是一个空壳。使用游览器打开时,游览器会引入app.js文件,这个文件执行JavaScript代码,而JavaScript会改变HTML中的节点,向其添加内容,最后得到完整的页面。如果不使用游览器的话我们可以分析后台Ajax接口,也可使用Selenium、Splash来实现JavaScript的渲染。      ------保存数据

四、使用代理进行爬虫

如果我们使用内网进行爬虫的话,同一个IP访问太过频繁,网络就会封锁我们的IP,我们可以使用代理来隐藏我们的IP,开启代理时,网页里面直接搜索IP就能看到我们使用到公网IP地址。这样的爬虫过程中通过不断更换代理,这样才能防止反爬虫,才能达到爬虫效果。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值