Python爬取豆瓣电影Top250数据

最新推荐文章于 2024-09-26 14:37:25 发布

GeorgeCaoJ

最新推荐文章于 2024-09-26 14:37:25 发布

阅读量4.4k

点赞数 1

分类专栏： python 文章标签： python 豆瓣数据

本文链接：https://blog.csdn.net/cjooo0/article/details/51387166

版权

本文记录了一位初学者使用Python爬取豆瓣电影Top250的实践过程，将数据保存为DataFrame格式，为后续数据分析做准备。通过分析网页HTML结构，实现了数据抓取。

摘要由CSDN通过智能技术生成

初学pyhton，自己找个练手任务。爬取豆瓣电影top250，保存为一个DataFrame数据格式，留待分析.(代码粗糙，留存）

具体要配合豆瓣电影的HTML看代码
url=‘https://movie.douban.com/top250?start=%d&filter=’

from bs4 import BeautifulSoup
from urllib.request import urlopen
import pandas as pd
import numpy as np
from pandas import DataFrame,Series
import re
def split(str,regular):  #正则表达式过滤字符串
    return re.split(regular,str)

def trans_list(main_list,sub_list):
    index=main_list.index(sub_list)
    sub_list.reverse()  #反转list的排列
    for ele in sub_list:
        main_list.insert(index,ele)  #后一以元素插入在前一元素之前
    main_list.pop(main_list.index(sub_list))
    return main_list