使用Requests爬取豆瓣
欢迎使用visual studio2019编辑器
你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
提示:这里可以添加本文要记录的大概内容:
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。
提示:以下是本篇文章正文内容,下面案例可供参考
一、requests是什么?
示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
二、使用步骤
1.引入库
代码如下(示例):
import requests
from bs4 import BeautifulSoup
2.获取网页
代码如下(示例):
class douban():
def index(self,move_name):
index_url = 'https://www.douban.com/search?'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36 Edg/90.0.818.62'}
param = {'q':move_name}
index_response = requests.get(index_url,params=param,headers=headers)
#return(index_response.text)
soup_response = BeautifulSoup(index_response.text,'html.parser')
soup_response_content = soup_response.find_all('div',class_='content')
#得到首页详情网址
soup_response_url = soup_response_content[0].a['href']
#获取详情网页
title_response = requests.get(soup_response_url,headers=headers)
soup_title = BeautifulSoup(title_response.text,'html.parser')
#寻找电影简介
move_detaileds = soup_title.find('div',id='info')
#打印出电影简介
print(move_detaileds.text)
#获取评星
move_appraise = soup_title.find('div',class_='rating_self clearfix')
print(move_appraise.strong.text+'星')
#获取剧情简介
move_introduction = soup_title.find('div',id='link-report')
print(move_introduction.span.text)
#获取短评界面url
move_appraise = soup_title.find('div',class_='grid-16-8 clearfix')
appraise_urls = move_appraise.a['href']
appraise_url = appraise_urls[:-13]
print(appraise_url)
appraise_list = []
words_list = []
for i in range(1,11):
x=i*20
appraise_url_s = (appraise_url+'comments?start=%s&limit=20&status=P&sort=new_score'%x)
#print(appraise_url_s)
appraise_response = requests.get(appraise_url_s,headers=headers)
appraise_soup = BeautifulSoup(appraise_response.text,'html.parser')
appraise_texts = appraise_soup.find_all('div',class_='comment')
for appraise in appraise_soup.find_all('span',class_='short'):
appraise_list.append(appraise.text)
print(appraise_list)
c=douban()
#输出首页 介绍界面
print(c.index('想要获取电影名称'))
该处使用的url网络请求的数据。
总结
利用bs4和requests库获取网页信息
以上就是今天要讲的内容,本文仅仅简单介绍了requests的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。