python爬虫–小白学习进程
大家好,这是一篇记录小白学习爬虫的日志,让我们共同进步吧!
2022.10.19 第一个小爬虫的实现
- 编程工具 :我使用的是pycharm2021版和python3.7;
两天前遇到了些问题,就是我的pycharm过期了,用激活码重新搞了一下我的pycharm。搞了好半天,网上大部分都是过了期的。 - 学习课程:目前看的是B站的python大讲堂呀的课,目前感觉还可以,链接在这: 爬虫1000集
- 获取网站为百度
今日学习进程
1.所需代码:
下面展示 第一个小爬虫代码
from urllib.request import urlopen
url = "http://www.baidu.com"#注意:是http,不是https,两个抓取的代码关键字不同
resp = urlopen(url)
#print(resp.read().decode("utf-8")),需要+utf-8,这样可以将部分代码转换为
with open("mybaidu.html",mode="w",encoding="utf-8") as f:
f.write(resp.read().decode("utf-8"))
print("over!")
2.学习过程和所遇问题及学习方法
(1)第一节:从urllib.request中导入urlopen,以便后续使用;将网站赋给url,使用urlopen打开url并赋给resp,最后输出读取内容
注意:敲代码的时候一定要细心,是http,不是https(不要直接复制网站),两个抓取的代码关键字有很大差别,具体什么不同,还有待学习,以下是问题展示
https代码如下:
from urllib.request import urlopen
url = "https://www.baidu.com"#注意:是http,不是https,两个抓取的代码关键字不同
resp = urlopen

这篇博客记录了一位小白学习Python爬虫的过程,从安装pycharm和python环境开始,逐步学习了http协议、requests库的使用,包括GET和POST请求。博主通过实践爬取了百度和搜狗的网页,解析了请求头和响应头的关键信息,并解决了编码问题。
最低0.47元/天 解锁文章
378

被折叠的 条评论
为什么被折叠?



