python爬虫–小白学习进程
大家好,这是一篇记录小白学习爬虫的日志,让我们共同进步吧!
2022.10.19 第一个小爬虫的实现
- 编程工具 :我使用的是pycharm2021版和python3.7;
两天前遇到了些问题,就是我的pycharm过期了,用激活码重新搞了一下我的pycharm。搞了好半天,网上大部分都是过了期的。 - 学习课程:目前看的是B站的python大讲堂呀的课,目前感觉还可以,链接在这: 爬虫1000集
- 获取网站为百度
今日学习进程
1.所需代码:
下面展示 第一个小爬虫代码
from urllib.request import urlopen
url = "http://www.baidu.com"#注意:是http,不是https,两个抓取的代码关键字不同
resp = urlopen(url)
#print(resp.read().decode("utf-8")),需要+utf-8,这样可以将部分代码转换为
with open("mybaidu.html",mode="w",encoding="utf-8") as f:
f.write(resp.read().decode("utf-8"))
print("over!")
2.学习过程和所遇问题及学习方法
(1)第一节:从urllib.request中导入urlopen,以便后续使用;将网站赋给url,使用urlopen打开url并赋给resp,最后输出读取内容
注意:敲代码的时候一定要细心,是http,不是https(不要直接复制网站),两个抓取的代码关键字有很大差别,具体什么不同,还有待学习,以下是问题展示
https代码如下:
from urllib.request import urlopen
url = "https://www.baidu.com"#注意:是http,不是https,两个抓取的代码关键字不同
resp