Python爬取豆瓣电影Top250数据

本文记录了一位初学者使用Python爬取豆瓣电影Top250的实践过程,将数据保存为DataFrame格式,为后续数据分析做准备。通过分析网页HTML结构,实现了数据抓取。
摘要由CSDN通过智能技术生成

初学pyhton,自己找个练手任务。爬取豆瓣电影top250,保存为一个DataFrame数据格式,留待分析.(代码粗糙,留存)

具体要配合豆瓣电影的HTML看代码
url=‘https://movie.douban.com/top250?start=%d&filter=

from bs4 import BeautifulSoup
from urllib.request import urlopen
import pandas as pd
import numpy as np
from pandas import DataFrame,Series
import re
def split(str,regular):  #正则表达式过滤字符串
    return re.split(regular,str)

def trans_list(main_list,sub_list):
    index=main_list.index(sub_list)
    sub_list.reverse()  #反转list的排列
    for ele in sub_list:
        main_list.insert(index,ele)  #后一以元素插入在前一元素之前
    main_list.pop(main_list.index(sub_list))
    return main_list

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值