0基础 | BeautifulSoup进行页面内容提取

最新推荐文章于 2024-05-01 17:12:59 发布

川九九秃头版

最新推荐文章于 2024-05-01 17:12:59 发布

阅读量629

点赞数

分类专栏：研究生这一年文章标签： beautifulsoup

本文链接：https://blog.csdn.net/cjj_kk/article/details/127670390

版权

研究生这一年专栏收录该内容

3 篇文章 0 订阅

订阅专栏

事情是这样的，本人本科跨专业考到某大学研究生，然后现在每天0基础做作业，每次百度出来的方法都不是对小白特别友好，因此想到在此处记录一下我的0基础作业。

今天做的是网络爬虫课的作业，使用BeautifulSoup对实际网页进行页面内容提取，由于我真的啥都还不会，所以我会从最简单的安装python配置环境做起。

第一步：安装python环境。在csdn输入“安装python”然后一步一步安装配置。

Python安装教程（新手）_Hi梅的博客-CSDN博客_python安装教程

按照博主的方式，成功按照pyCharm，创建beautiful.py文件。

第二步：搜索“BeautifulSoup安装”。按照步骤安装BeautifulSoup，这个博主讲的好细致，感谢。

Python Beautiful Soup教程-简介及安装_一行书辞的博客-CSDN博客_beautifulsoup安装

pip3 install beautifulsoup4

我安装lxml失败了，所以安装了html5lib

pip3 install html5lib

安装requests模块，因为要发请求，模仿浏览器对网站进行访问。

python -m pip install requests

到此配置工作已经完成，开始写代码。

# 用bs4对豆瓣北京站电影进行爬取

import requests
from bs4 import BeautifulSoup

url = "https://movie.douban.com/cinema/nowplaying/beijing/"

# 获取页面信息
#加上请求头,模拟浏览器对网站进行访问
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
response = requests.get(url=url, headers=headers)
content = response.text
print(content)

# 分析页面，获取ID和电影名称
soup = BeautifulSoup(content, 'html.parser')

# 找到所有的电影信息对应的li标签，此时的movie_list是一个生成器
movie_list = soup.find_all('li', class_='list-item')

# 储存所有电影信息[{'title':'名称'，'id':'id号'}]
movies_info = []
# 用for循环依次遍历每一个li标签，提取所需要的信息
for item in movie_list:
    now_movies_dict = {}
    # 根据属性获取title和id内容
    # item['data-title']获取li标签里面的指定属性data-title对应的value值;
    now_movies_dict['title'] = item['data-title']
    now_movies_dict['id'] = item['id']
    now_movies_dict['actors'] = item['data-actors']
    now_movies_dict['director'] = item['data-director']
    # 将获取的{'title':"名称", "id":"id号"}添加到列表中;
    movies_info.append(now_movies_dict)

# 在目录里生成一个txt文件
with open('movies.txt', 'w', encoding='utf-8') as f:
    for item in movies_info:
        f.write(str(item) + '\n')

可以在文件夹里得到一个movie.txt文件。