如何用Python在豆瓣中获取自己喜欢的TOP N电影信息

一、什么是 Python

  Python (蟒蛇)是一门简单易学、 优雅健壮、 功能强大、 面向对象的解释型脚本语言.具有 20+ 年发展历史, 成熟稳定. 具有丰富和强大的类库支持日常应用。

  1989 年, 罗萨姆想要开发出一套工具完成日常系统管理任务, 能够访问分布式操作系统 Amoeba 的系统调用. 于是从 1989 年底开始创作通用性开发语言Python.

二、为什么选择 Python

  语言都有使用场景,只有合适和不合适

  语言是工具,想法(思路&算法)是基础

三、Python 的优势

  简单易学

  简单、易学、免费、开源、可移植、可扩展、可嵌入、面向对象等优点

  功能健全,能满足我们工作中绝大多数需求的开发

  通用语言,几乎可以用在任何领域和场合,可以跨平台使用,目前各 Linux系统都默认安装 Python 运行环境

  社区,是否有一个完善的生态系统

  pypi, github, StackOverFlow , oschina

成功案例

  国内:豆瓣、知乎、盛大、BAT、 新浪、网易…

  国外:谷歌、YouTube、Facebook、红帽…

四、Python 有哪些使用场景

  系统管理任务

  Web 编程

  图形处理、多媒体应用

  文本处理(爬虫)

  数学处理(数据分析、机器学习)

  网络编程

  游戏开发

  黑客( POC 脚本、木马)

  自动化测试

  运维开发

  云计算

五、什么是爬虫 

  按照一定规则自动的获取互联网上的信息(随着网络的迅速发展,互联网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战)

应用

  搜索引擎(Google、百度、Bing等搜索引擎,辅助人们检索信息)

  股票软件(爬取股票数据,帮助人们分析决策,进行金融交易)

  Web扫描(需要对网站所有的网页进行漏洞扫描)

  获取某网站最新文章收藏

  爬取天气预报

  爬取漂亮mm照片

  给空间朋友点赞

......

六、实战项目

 1、项目目标

目标:在豆瓣中获取自己喜欢的TOP N电影信息

 2、基础知识

HTTP 协议

客户端发起请求,服务器接收到请求后返回格式化的数据,客户端接收、解析并处理数据

HTML(超文本标记语言)

Python

  基础语法

  模块

>>>常用系统模块

>>>第三方模块安装&使用

>>>pip install requests

>>>pip install pyquery

3、手动搜索

4、程序启动

5、获取电影列表

6、获取电影详情

7、写入csv文件

如何学习 Python

  多抄、多写、多想、多问、多看、多听、多说

  学习编程是为了解决实际的问题,把自己在工作或学习中的重复工作程序化

  谷歌和度娘

  加入开源社区(多看、多分享、多交流)

交流QQ群:238757010

转载于:https://www.cnblogs.com/reboot51/p/8004906.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是爬取豆瓣top250电影详细信息Python源码: ```python import requests from bs4 import BeautifulSoup def get_movie_details(url): res = requests.get(url) soup = BeautifulSoup(res.text, 'html.parser') # 电影名 name = soup.select_one('h1 span').text.strip() # 导演、演员、类型 info = soup.select_one('div#info').text.strip().split('\n') director = info[0][4:].strip() actors = [actor.strip() for actor in info[1][4:].split('/')] genre = [genre.strip() for genre in info[2][4:].split('/')] # 评分 rating = soup.select_one('strong.rating_num').text.strip() # 评价人数 rating_num = soup.select_one('span.rating_people span').text.strip()[:-3] # 简介 summary = soup.select_one('span.all.hidden').text.strip() # 返回字典 return { 'name': name, 'director': director, 'actors': actors, 'genre': genre, 'rating': rating, 'rating_num': rating_num, 'summary': summary } def get_top250_movies(): movies = [] for i in range(10): url = 'https://movie.douban.com/top250?start=' + str(i*25) + '&filter=' res = requests.get(url) soup = BeautifulSoup(res.text, 'html.parser') for item in soup.select('ol.grid_view li'): # 电影详情链接 link = item.select_one('div.hd a')['href'] movies.append(get_movie_details(link)) return movies if __name__ == '__main__': top250_movies = get_top250_movies() for movie in top250_movies: print(movie) ``` 该代码使用requests库和BeautifulSoup库,通过访问豆瓣电影top250页面,获取每个电影的详细信息。其,`get_movie_details()`函数用于获取单个电影的详细信息,`get_top250_movies()`函数用于获取豆瓣电影top250列表所有电影的详细信息。最后,将获取到的电影信息以字典形式存储,并打印输出。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值