爬虫基础知识

爬虫基础知识

HTTP       超文本传输协议                 默认端口号:80

HTTPS      HTTP + SSL(安全套接字层)       默认端口号:443

HTTPS比HTTP更安全,但是性能更低
HTTP常见请求头

1
. Host (主机和端口号) 2. Connection (链接类型) 3. Upgrade-Insecure-Requests (升级为HTTPS请求) 4. User-Agent (浏览器名称) 5. Accept (传输文件类型) 6. Referer (页面跳转处) 7. Accept-Encoding(文件编解码格式) 8. Cookie (Cookie) 9. x-requested-with :XMLHttpRequest (是Ajax 异步请求)

------------------------------

爬虫的分类:聚焦爬虫和通类爬虫-

--------------------------------

微指数-新浪

-----------------------------------

robots.txt

Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

------------------------------------

爬虫的概念

  • 爬虫是模拟浏览器发送请求,获取响应

爬虫的流程

  • url--->发送请求,获取响应--->提取数据---》保存

  • 发送请求,获取响应--->提取url

------------------------------------

爬虫要根据当前url地址对应的响应为准 ,当前url地址的elements的内容和url的响应不一样

页面上的数据在哪里

  • 当前url地址对应的响应中

  • 其他的url地址对应的响应中

    • 比如ajax请求中

  • js生成的

    • 部分数据在响应中

    • 全部通过js生成

-----------------------------------------------

 

 

posted @ 2018-12-07 16:13 wsg-python 阅读( ...) 评论( ...) 编辑 收藏
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值