requests+re爬取豆瓣电影top100

这是一个非常基础的项目,可以很好地锻炼对于requests和re的使用。注释很详细,如果有大佬看到哪里有错误,还请指出,我现在还是一个小白!!!

import requests
import re
import json
import time

# 参数为url,获得该页面的html
def get_one_page(url):
    # 请求头,伪装成浏览器
    headers={
        'User-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
    }
    # 调用requests的get方法进入请求
    response=requests.get(url,headers=headers)
    if response.status_code==200:
        return response.text
    else:
        return None
# 参数为html,对HTML中我们所需数据进行提取
def parse_one_page(html):
    # 表达式分别提取rank,name,image,stars,time,score
    pattern=re.compile('<dd>.*?board-index.*?">(.*?)</i>.*?title="(.*?)".*?'
                       '<img data-src="(.*?)".*?<p class="star">(.*?)</p>.*?class="releasetime">(.*?)'
                       '</p>.*?integer.*?>(.*?)</i>.*?fraction.*?>(.*?)</i>.*?</dd>',re.S)
    # items是我们匹配的数据后返回的一个list
    items=re.findall(pattern,html)
    # 遍历list进行处理,将数据转化为一个个字典便于操作
    for item in items:
        yield {
            'rank':item[0],
            'name':item[1],
            'image':item[2],
            'star':item[3].strip()[3:] if len(item[3])>3 else '',
            'time':item[4].strip()[5:] if len(item[4])>5 else '',
            'score':item[5].strip()+item[6].strip()
        }
# 将字典格式转化为json并写入txt文件
def write_to_file(content):
    with open('result.txt','a',encoding='utf-8') as f:
        # 将字典封装为json字符串
        # print(type(json.dumps(content)))
        # 为保证中文可以正确编码,写入文件
        f.write(json.dumps(content,ensure_ascii=False)+'\n')

# 将字典格式转化为json并写入json文件
# def write_to_file(content):
#     with open('data.json', 'w') as f:
#         json.dump(content, f)

def main(offset):
    # 分析top100的页面的URL只有offset不一样
    url='https://maoyan.com/board/4?offset='+str(offset)
    # 获取html
    html=get_one_page(url)
    # 解析HTML提取数据
    for content in parse_one_page(html):
        # print(type(content))
        write_to_file(content)
# 在执行程序时候保证将所有页面进行解析
if __name__=='__main__':
    for i in range(10):
        main(offset=i*10)
        # 防止爬取速度过快
        time.sleep(1)

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
爬取豆瓣电影Top250,可以按照以下步骤进行操作: 首先,需要搭建程序的主体框架。可以导入必要的库,如requests用于发送请求,re用于正则表达式匹配等。然后定义一个函数get_page(url),用于获取指定URL的网页内容;另外定义一个函数get_movie_list(html),用于解析网页内容,获取电影列表;再定义一个函数get_content(movie_url),用于获取每部电影的详细内容。接下来就可以在主程序中使用循环来爬取每一页的电影数据了。具体实现如下所示: ```python import requests from requests.exceptions import RequestException import re def get_page(url): # 发送请求,获取响应 response = requests.get(url) if response.status_code == 200: return response.text return None def get_movie_list(html): # 解析响应,获取电影列表 pattern = re.compile('<a href="(.*?)".*?<span class="title">(.*?)</span>.*?' '<span class="rating_num" property="v:average">(.*?)</span>', re.S) movie_list = re.findall(pattern, html) return movie_list def get_content(movie_url): # 获取每部电影的详细内容 # 这里可以继续编写代码,根据电影详情页的URL获取需要的信息 if __name__ == '__main__': for i in range(10): url = 'https://movie.douban.com/top250?start=' + str(i*25) # 根据页数拼接URL html = get_page(url) # 获取网页内容 movie_list = get_movie_list(html) # 解析网页内容,获取电影列表 for movie in movie_list: get_content(movie<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Python爬虫实战 | (3) 爬取豆瓣电影Top250](https://blog.csdn.net/sdu_hao/article/details/96114862)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值