python爬虫从入门到爬论文|1. 从0到爬第一个网页

视频学习链接

pycharm安装教程
pycharm安装教程
安装requests模块

爬虫 模拟浏览过程并记录
https://www.zhihu.com/robots.txt
像这样在网址最后加一个/robots.txt 可以看这个网页哪些内容让爬。虽然不让爬的也能通过手段爬出来,但那就跟考试作弊一样了。

爬虫分类
通用爬虫:抓取一整张页面数据
聚焦爬虫:拿通用爬虫爬来的数据 抓取页面中指定的局部内容
增量式爬虫:只抓取网站中更新出来的内容

  • 爬虫中常用的请求头信息

    User-Agent 请求载体的身份标识
    UA(User-Agent)是一个特殊字符串头,使得服务器能够识别客户使用的操系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言等。
    一些网站常常通过 UA 来给不同的操作系统、不同的浏览器发送不同的页面。
    UA字串的标准格式:浏览器标识(操作系统标识;加密等级标识;浏览器语言)渲染引擎标识 版本信息
    常见 User-Agent 大全
    Connection 请求完毕后是断开连接还是保持连接

  • 爬虫中常用的响应头信息

    Content-Type 服务器相应回客户端的数据类型

http协议没加密,https协议有加密
对称秘钥加密:把文件和钥匙都给出去。对称密钥在加密和解密的过程中使用的密钥是相同的,如果所有客户端都共享同一个密钥,那么这个密钥就像万能钥匙一样,可以凭借一个密钥破解所有人的密文了,如果每个客户端与服务端单独维护一个密钥,那么服务端需要管理的密钥将是成千上万
非对称秘钥加密:把文件和加密方法给出去,解密方法自己留着
证书秘钥加密:用第三方认证发来的加密方法是真的

http&https协议
HTTPS的中那些加密算法

requests模块的编码流程
1 指定url //确定网址
2 发起请求 //回车 发送给服务器
3 获取响应数据 //显示网页页面
4 持久化存储

# encoding: utf-8

import requests
if __name__=="__main__":
    #step1:指定url
    url ='https://fanyi.sogou.com/text' #'https://www.sogou.com/'
    #step_2:发起请求
    #get方法会返回一个响应对象
    response = requests.get(url=url)
    #step_3:获取响应数据text返回的是字符串形式的响应数据
    page_text = response.text
    print(page_text)
    #step 4:持久化存馈
    with open('./sogou.html','w',encoding='utf-8 ' ) as fp:
        fp.write(page_text)
    print('爬取数据结束!!!')

Python出现"SyntaxError: Non-ASCII character ‘\xe6’ in file"错误解决方法

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值