python-爬虫案例

最新推荐文章于 2024-05-27 13:16:19 发布

别说没办法啊

最新推荐文章于 2024-05-27 13:16:19 发布

阅读量699

点赞数 2

分类专栏： python 文章标签： python 爬虫 pycharm

本文链接：https://blog.csdn.net/m0_60524373/article/details/123312495

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文写作目的是为了了解一下爬虫的原理，好了，新手的我，要开始了！！！！

案例一爬取豆瓣评分最高250部电影

本次爬虫分为以下步骤：

（1）环境搭建

（2）代码解释

（3）得到结果

（1）环境搭建：

需要的环境有： pycharm + 库 requests + 库 bs4

1.对于pycharm安装大家自行百度，这里介绍一下库的安装！

2.打开pycharm，按图片顺序操作如下:

这里补充一下：第三步是点击 “+”，然后最好你先创建好工程+python文件

（2）代码解释

到目前位置，我们需要的环境就搭建好了，现在我们可以把代码放进去了。代码如下：

import requests        #导入requests包
import bs4
res=requests.get('https://movie.douban.com/top250',headers={'user-agent':'Mozilla/5.0'})
soup = bs4.BeautifulSoup(res.text, "html.parser")
targets = soup.find_all("div", class_="hd")
for each in targets:
    print(each.a.span.text)

代码解释：

（1）（2）行是调用库

（3）利用 requests 库读取网址数据，后面的headers是进行防伪，简单理解为豆瓣有防爬取，我们加这句是为了反防爬取

（4）利用 bs4 调用 BeautifulSoup 把读取的 res文档读取为文档对象，后面那个是默认参数

（5）查找标签“div”，类型为class “hd”

（6）通过一个 for循环遍历

（7）因为名字在 a span 里面的一个文档