python爬虫实战：利用beautiful soup爬取猫眼电影TOP100榜单内容-2

最新推荐文章于 2023-11-29 10:53:22 发布

Ting说

最新推荐文章于 2023-11-29 10:53:22 发布

阅读量1.5k

点赞数 1

分类专栏： Python 爬虫 beautiful soup 文章标签： python bs4 html5 爬虫

本文链接：https://blog.csdn.net/myself029/article/details/81675664

版权

结合html5基础知识，使用BeautifulSoup爬取并解析猫眼电影TOP100榜单，提取dd节点的关键内容。

摘要由CSDN通过智能技术生成

最近学习了 html5 相关的网页标签的基础知识，这个对beautiful soup的应用理解有很多的帮助，于是重新整理了之前的代码。

有兴趣的可以参考。

import os
import requests
from bs4 import BeautifulSoup


file_path = 'D:\python3.6\scrapy\maoyan' 
# 定义文件夹，方便后续check文件夹是否存在
file_name = 'maoyan.txt'  
# 自定义文件名称
file = file_path+'\\'+file_name 
# 创建文件全地址，方便后续引用

url = "http://maoyan.com/board/4"
# 获取url的开始页
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}

if os.path.exists(file):
# 如果文件存在，就在程序运行开始头指针开始编辑，即清空原有内容；
# 如果文件不存在，就创建一个新文件
	with open(file, 'w', encoding='utf-8') as f: 
	# 打开目标文件夹中的文件
			f.truncate()
			#清空文件内容，注意：仅当以 "r+" "rb+" "w" "wb" "wb+"等以可写模式打开的文件才可以执行该功能

def get_all_pages(start):
# 自定

最低0.47元/天解锁文章

Ting说

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python爬虫实战：利用beautiful soup爬取猫眼电影TOP100榜单内容-2

最近学习了 html5 相关的网页标签的基础知识，这个对beautiful soup的应用理解有很多的帮助，于是重新整理了之前的代码。有兴趣的可以参考。import osimport requestsfrom bs4 import BeautifulSoupfile_path = 'D:\python3.6\scrapy\maoyan' # 定义文件夹，方便后续check文件...
复制链接

扫一扫

专栏目录