小白python学习连续剧

最新推荐文章于 2024-04-27 21:15:58 发布

GA-BPNN

最新推荐文章于 2024-04-27 21:15:58 发布

阅读量115

点赞数

分类专栏： sunyw的日常学习专栏文章标签： python

本文链接：https://blog.csdn.net/ooooaook/article/details/113659877

版权

sunyw的日常学习专栏专栏收录该内容

5 篇文章 0 订阅

订阅专栏

@sunny

python学习日记

注：写这个纯属为了督促自己学习，记录一下学习历程。
大四学生在读，是个贼懒的工科女王吧
之前有一些littlelittle的基础，寒假决定重新自学python，争取每天更新自己的学习笔记！fighting！

2020年2月4日第一篇

下午开始直接进击bilibili学习网站（为什么不从上午开始？因为江南百景图和够级需要我🤓
我想先学一下爬虫，我看的是这个→链接: link.
(在这直接放链接不会被举报吧…
之前有在学校里看过python基础是廖雪峰老师的所以直接上爬虫，中间有不会的再回头学一次nice
1.5倍速老师讲的很好（正常语速在下午两点温暖的北方可能会睡着

一些笔记

老师这里用的是requests模块 据说是和之前的urllib比更优秀

爬虫类型
-通用爬虫：
抓取一整张页面数据
-聚焦爬虫：
页面特定局部内容
先通用再聚焦
-增量式爬虫：
抓取最新更新内容

robots.txt协议反爬虫找到网站哪些数据可以爬取
网站+/robots.txt，如https://www.baidu.com/robots.txt 是百度的allow&disallow

http协议：服务器和客户端数据交换协议

常用爬虫请求头信息request heading：
-user-agent :请求载体的身份标识
-connection :请求完毕后是否继续连接

常用响应头信息：
-content-type : 服务器响应客户端的数据类型

https协议：
安全的超文本传输协议s : security数据加密

加密方式：
-对称密钥加密：
-非对称密钥加密
-证书密钥加密

requests模块：
urllib
requests模块更简单高效
用于网络请求作用：模拟浏览器发请求

requests如何使用：
指定url 网址
发起请求
获取响应数据
存储数据
安装：
pip install requests 或用pycharm直接下载

在这里夸一夸pycharm，对学生党太友好了，我用的是学校给的腾讯企业邮箱注册激活，学生版直接免费nice

第一次爬虫

用pycharm写的，我爬的是百度
上代码刚开始爬虫感觉入门挺容易的，有一定的python语言基础问题不大（个人感受

import requests
if __name__ == "__main__":
    url = 'https://www.baidu.com/'
    response = requests.get(url=url)
    page_text = response.text;
    print(page_text);
    with open('./baidu.html','w',encoding='UTF-8') as fp:
        fp.write(page_text)
    print('爬取结束！')

这一版是我完完全全按照老师写的 copy的但是运行生成html后打开的网站文字处于乱码状态
————————————
于是就出现了第二部
第二版：

import requests
if __name__ == "__main__":
    url = 'https://www.baidu.com/'
    response = requests.get(url=url)
    page_text = response.content.decode('UTF-8')
    print(page_text);
    with open('./baidu.html','w') as fp:
        fp.write(page_text)
    print('爬取结束！')

额区别就是将get到的text进行了解码我是直接百度问题，看了下面这篇博客，因为在百度console页面上查到的就是utf-8，所以觉得是这个博主说的第二种情况网页进行了压缩，改了一句话就ok啦！
博客链接：link.

第一次写csdn,markdown也太好用了新手必备必须夸一夸！

猫猫就是最可爱的！
好啦今天就到这里啦，小年啦，去吃饺子，明天见！

GA-BPNN

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
小白python学习连续剧

@sunnypython学习日记注：写这个纯属为了督促自己学习，记录一下学习历程。大四学生在读，是个贼懒的工科女王吧之前有一些littlelittle的基础，寒假决定重新自学python，争取每天更新自己的学习笔记！fighting！2020年2月4日第一篇下午开始直接进击bilibili学习网站（为什么不从上午开始？因为江南百景图和够级需要我????我想先学一下爬虫，我看的是这个→链接: link.(在这直接放链接不会被举报吧…之前有在学校里看过python基础是廖雪峰老师的所以直
复制链接

扫一扫