第一个爬虫==

最新推荐文章于 2022-05-08 21:30:28 发布

小源子先生

最新推荐文章于 2022-05-08 21:30:28 发布

阅读量100

点赞数

分类专栏：编程

本文链接：https://blog.csdn.net/kelisiyuan/article/details/103674692

版权

编程专栏收录该内容

8 篇文章 0 订阅

订阅专栏

开始学python，就从爬虫实战开始。先学语法感觉有点枯燥…
在这里插入图片描述
python的方法感觉和web中请求方法类似，get post。
接下来我就来个实战吧，爬取一个网页内容


```python
import requests
url="https://item.jd.com/100000766433.html"
r = requests.get(url)
try:
    r = requests.get(url)
    r.raise_for_status()//在返回代码200的情况下不产生异常，否则会有异常提示
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失败")

在这里插入图片描述

这就算成功了吧！
前面博客里提到的robots协议，对爬虫爬取数据进行了约束。

robots协议要放在网站根目录下
在这里插入图片描述
通过代码初步分析，python应该和java一样都是面向对象编程，看到了一点点java的影子
之后还是要学一些语法吧，不然写不出脚本==

PS：pycharm真好用

小源子先生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第一个爬虫==

开始学python，就从爬虫实战开始。先学语法感觉有点枯燥…python的方法感觉和web中请求方法类似，get post。接下来我就来个实战吧，爬取一个网页内容```pythonimport requestsurl="https://item.jd.com/100000766433.html"r = requests.get(url)try: r = requests....
复制链接

扫一扫

专栏目录