python学习日记
注:写这个纯属为了督促自己学习,记录一下学习历程。
大四学生在读,是个贼懒的工科女王吧
之前有一些littlelittle的基础,寒假决定重新自学python,争取每天更新自己的学习笔记!fighting!
2020年2月4日 第一篇
下午开始直接进击bilibili学习网站(为什么不从上午开始?因为江南百景图和够级需要我🤓
我想先学一下爬虫,我看的是这个→链接: link.
(在这直接放链接不会被举报吧…
之前有在学校里看过python基础 是廖雪峰老师的 所以直接上爬虫,中间有不会的再回头学一次nice
1.5倍速 老师讲的很好 (正常语速在下午两点温暖的北方可能会睡着
一些笔记
老师这里用的是requests模块 据说是和之前的urllib比更优秀
爬虫类型
-通用爬虫:
抓取一整张页面数据
-聚焦爬虫:
页面特定局部内容
先通用 再聚焦
-增量式爬虫:
抓取最新更新内容
robots.txt协议 反爬虫 找到网站哪些数据可以爬取
网站+/robots.txt,如https://www.baidu.com/robots.txt 是百度的allow&disallow
http协议:服务器和客户端数据交换协议
常用爬虫请求头信息request heading:
-user-agent :请求载体的身份标识
-connection :请求完毕后是否继续连接
常用响应头信息:
-content-type : 服务器响应客户端的数据类型
https协议:
安全的超文本传输协议s : security数据加密
加密方式:
-对称密钥加密:
-非对称密钥加密
-证书密钥加密
requests模块:
urllib
requests模块 更简单高效
用于网络请求 作用:模拟浏览器发请求
requests如何使用:
指定url 网址
发起请求
获取响应数据
存储数据
安装:
pip install requests 或用pycharm直接下载
在这里夸一夸pycharm,对学生党太友好了,我用的是学校给的腾讯企业邮箱注册激活,学生版直接免费nice
第一次爬虫
用pycharm写的,我爬的是百度
上代码 刚开始爬虫感觉入门挺容易的,有一定的python语言基础问题不大(个人感受
import requests
if __name__ == "__main__":
url = 'https://www.baidu.com/'
response = requests.get(url=url)
page_text = response.text;
print(page_text);
with open('./baidu.html','w',encoding='UTF-8') as fp:
fp.write(page_text)
print('爬取结束!')
这一版是我完完全全按照老师写的 copy的 但是运行生成html后打开的网站文字处于乱码状态
————————————
于是就出现了第二部
第二版:
import requests
if __name__ == "__main__":
url = 'https://www.baidu.com/'
response = requests.get(url=url)
page_text = response.content.decode('UTF-8')
print(page_text);
with open('./baidu.html','w') as fp:
fp.write(page_text)
print('爬取结束!')
额区别就是将get到的text进行了解码 我是直接百度问题,看了下面这篇博客,因为在百度console页面上查到的就是utf-8,所以觉得是这个博主说的第二种情况 网页进行了压缩,改了一句话就ok啦!
博客链接:link.
第一次写csdn,markdown也太好用了 新手必备 必须夸一夸!
好啦 今天就到这里啦,小年啦,去吃饺子,明天见!