用最简单的白话教你入门python爬虫(一)

最近一个月的自己,时常会问自己努力有用吗,还不是不如别人?常常严重否定自己,一度陷入泥潭,想了好久,还是选择站了起来。从小到大,自己的学习都是自己在监督,学习的路上不要怕孤独,随着自己的慢慢长大,也懂得了不少道理,也见识到了不同的人,也感受到了这个社会的恶心。但是自己还需要做好自己,不论如何,努力是为了自己,而不是为了攀比。不知道从什么时候开始,我慢慢的越来越懂是非道理,慢慢的还是变成了自己讨厌的人,但是在这个社会,如果我没有实力,那么以后就要挨现实的鞭打,因此,在屏幕前的陌生人,你也要加油呀!

网络爬虫是有趣的技术,我相信你学习爬虫的初衷肯定是为了多一份乐趣多一份成就感,总有人迈不出着第一步,那么就让我来带着你踏上学习爬虫的阶梯。

1.何谓网络爬虫?

我很讨厌那些博主的定义(当然不是抨击博主),他们总是把网络爬虫抽象化,让小白读者还没迈出第一步就放弃。简单来说,网络爬虫就是根据根据自己的分析,选择适当的爬取方法,爬取到网页内容,再对所得内容作提取,从而得到自己想要的内容;你也当然可以作持久化存储,比如保存到文件或数据库中

2.requests库的基本使用详解

这里我也不上requests的定义,你只需要知道它是你获取网页内容最简便的途径

2.1 安装requests库

你可以在cmd终端输入: pip install requests就可以安装完成

2.2 爬取百度网页内容

import requests #导入requests库
url="https://www.baidu.com/" #百度网址链接
r=requests.get(url=url) #get方法获取网页内容
print(r.text[:1000]) #这里由于网页内容较多,进行字符串切片获取部分指定内容

运行结果:
在这里插入图片描述
注意这里的运行结果,不难看出有乱码的出现,相信很多小可爱这里很纠结,这就是编码问题了;再注意圆圈内的内容,这便是此网页的编码格式,当然不同网页的编码格式可能不一样,这时候你只需要看头部信息中的编码格式,再在原来的代码中加一句:r.encoding="utf-8"
即可,如下图:

import requests #导入requests库
url="https://www.baidu.com/" #百度网址链接
r=requests.get(url=url) #get方法获取网页内容
r.encoding="utf-8" #设置网页编码格式为"utf-8",从而解决乱码问题
print(r.text[:1000]) #这里由于网页内容较多,进行字符串切片获取部分指定内容

运行结果:
在这里插入图片描述
从结果不难看出,乱码问题已经解决.

这只是一个开始!

谨此文章献给那些想学习python爬虫的小可爱们,请关注我哦,后续将不间断更新关于python爬虫部分的相关知识。

有什么问题在评论区留言哦,会一一回复。

  • 6
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 11
    评论
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

拉不拉斯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值