python爬虫从入门到爬论文|1. 从0到爬第一个网页

最新推荐文章于 2023-05-25 13:57:34 发布

晓蓝WQuiet

最新推荐文章于 2023-05-25 13:57:34 发布

阅读量166

点赞数

分类专栏：学习记录文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_42635852/article/details/114239794

版权

学习记录专栏收录该内容

12 篇文章 6 订阅

订阅专栏

视频学习链接

pycharm安装教程
 pycharm安装教程
 安装requests模块

爬虫模拟浏览过程并记录
https://www.zhihu.com/robots.txt
像这样在网址最后加一个/robots.txt 可以看这个网页哪些内容让爬。虽然不让爬的也能通过手段爬出来，但那就跟考试作弊一样了。

爬虫分类
通用爬虫：抓取一整张页面数据
聚焦爬虫：拿通用爬虫爬来的数据抓取页面中指定的局部内容
增量式爬虫：只抓取网站中更新出来的内容

爬虫中常用的请求头信息

User-Agent 请求载体的身份标识
UA(User-Agent)是一个特殊字符串头，使得服务器能够识别客户使用的操系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言等。
一些网站常常通过 UA 来给不同的操作系统、不同的浏览器发送不同的页面。
UA字串的标准格式：浏览器标识（操作系统标识；加密等级标识；浏览器语言）渲染引擎标识版本信息
常见 User-Agent 大全
Connection 请求完毕后是断开连接还是保持连接
爬虫中常用的响应头信息

Content-Type 服务器相应回客户端的数据类型

http协议没加密，https协议有加密
对称秘钥加密：把文件和钥匙都给出去。对称密钥在加密和解密的过程中使用的密钥是相同的，如果所有客户端都共享同一个密钥，那么这个密钥就像万能钥匙一样，可以凭借一个密钥破解所有人的密文了，如果每个客户端与服务端单独维护一个密钥，那么服务端需要管理的密钥将是成千上万
非对称秘钥加密：把文件和加密方法给出去，解密方法自己留着
证书秘钥加密：用第三方认证发来的加密方法是真的

http&https协议
 HTTPS的中那些加密算法

requests模块的编码流程
1 指定url //确定网址
2 发起请求 //回车发送给服务器
3 获取响应数据 //显示网页页面
4 持久化存储

# encoding: utf-8

import requests
if __name__=="__main__":
    #step1:指定url
    url ='https://fanyi.sogou.com/text' #'https://www.sogou.com/'
    #step_2:发起请求
    #get方法会返回一个响应对象
    response = requests.get(url=url)
    #step_3:获取响应数据text返回的是字符串形式的响应数据
    page_text = response.text
    print(page_text)
    #step 4:持久化存馈
    with open('./sogou.html','w',encoding='utf-8 ' ) as fp:
        fp.write(page_text)
    print('爬取数据结束!!!')

Python出现"SyntaxError: Non-ASCII character ‘\xe6’ in file"错误解决方法

晓蓝WQuiet

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫从入门到爬论文|1. 从0到爬第一个网页

视频学习链接爬虫模拟浏览过程并记录https://www.zhihu.com/robots.txt像这样在网址最后加一个/robots.txt 可以看这个网页哪些内容让爬。虽然不让爬的也能通过手段爬出来，但那就跟考试作弊一样了。爬虫分类通用爬虫：抓取一整张页面数据聚焦爬虫：拿通用爬虫爬来的数据抓取页面中指定的局部内容增量式爬虫：只抓取网站中更新出来的内容爬虫中常用的请求头信息User-Agent 请求载体的身份标识UA(User-Agent)是一个特殊字符串头，使得服务器能够识别
复制链接

扫一扫

专栏目录