小白python学习连续剧

@sunny

python学习日记

注:写这个纯属为了督促自己学习,记录一下学习历程。
大四学生在读,是个贼懒的工科女王吧
之前有一些littlelittle的基础,寒假决定重新自学python,争取每天更新自己的学习笔记!fighting!

2020年2月4日 第一篇

下午开始直接进击bilibili学习网站(为什么不从上午开始?因为江南百景图和够级需要我🤓
我想先学一下爬虫,我看的是这个→链接: link.
(在这直接放链接不会被举报吧…
之前有在学校里看过python基础 是廖雪峰老师的 所以直接上爬虫,中间有不会的再回头学一次nice
1.5倍速 老师讲的很好 (正常语速在下午两点温暖的北方可能会睡着

一些笔记

老师这里用的是requests模块 据说是和之前的urllib比更优秀

爬虫类型
-通用爬虫:
抓取一整张页面数据
-聚焦爬虫:
页面特定局部内容
先通用 再聚焦
-增量式爬虫:
抓取最新更新内容

robots.txt协议 反爬虫 找到网站哪些数据可以爬取
网站+/robots.txt,如https://www.baidu.com/robots.txt 是百度的allow&disallow

http协议:服务器和客户端数据交换协议

常用爬虫请求头信息request heading:
-user-agent :请求载体的身份标识
-connection :请求完毕后是否继续连接

常用响应头信息:
-content-type : 服务器响应客户端的数据类型

https协议:
安全的超文本传输协议s : security数据加密

加密方式:
-对称密钥加密:
-非对称密钥加密
-证书密钥加密

requests模块:
urllib
requests模块 更简单高效
用于网络请求 作用:模拟浏览器发请求

requests如何使用:
指定url 网址
发起请求
获取响应数据
存储数据
安装:
pip install requests 或用pycharm直接下载

在这里夸一夸pycharm,对学生党太友好了,我用的是学校给的腾讯企业邮箱注册激活,学生版直接免费nice

第一次爬虫

用pycharm写的,我爬的是百度
上代码 刚开始爬虫感觉入门挺容易的,有一定的python语言基础问题不大(个人感受

import requests
if __name__ == "__main__":
    url = 'https://www.baidu.com/'
    response = requests.get(url=url)
    page_text = response.text;
    print(page_text);
    with open('./baidu.html','w',encoding='UTF-8') as fp:
        fp.write(page_text)
    print('爬取结束!')

这一版是我完完全全按照老师写的 copy的 但是运行生成html后打开的网站文字处于乱码状态
————————————
于是就出现了第二部
第二版:

import requests
if __name__ == "__main__":
    url = 'https://www.baidu.com/'
    response = requests.get(url=url)
    page_text = response.content.decode('UTF-8')
    print(page_text);
    with open('./baidu.html','w') as fp:
        fp.write(page_text)
    print('爬取结束!')

额区别就是将get到的text进行了解码 我是直接百度问题,看了下面这篇博客,因为在百度console页面上查到的就是utf-8,所以觉得是这个博主说的第二种情况 网页进行了压缩,改了一句话就ok啦!
博客链接:link.

第一次写csdn,markdown也太好用了 新手必备 必须夸一夸!

猫猫就是最可爱的!
好啦 今天就到这里啦,小年啦,去吃饺子,明天见!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值