Python数据分析:爬虫从网页爬取数据需要几步?

291 篇文章 1 订阅
23 篇文章 0 订阅

对于数据分析师来说,数据获取通常有两种方式,一种是直接从系统本地获取数据,另一种是爬取网页上的数据,爬虫从网页爬取数据需要几步?总结下来,Python爬取网页数据需要发起请求、获取响应内容、解析数据、保存数据共计4步。

本文使用Python爬取去哪儿网景点评论数据共计100条数据,数据爬取后使用Tableau Public软件进行可视化分析,从数据获取,到数据清洗,最后数据可视化进行全流程数据分析,下面一起来学习。

示例工具:anconda3.7
本文讲解内容:数据获取、数据可视化
适用范围:网页数据获取及评论分析

网页数据爬取

Python爬取网页数据需要发起请求、获取响应内容、解析数据、保存数据共计4步,懂的数据爬取的原理后,进行数据爬取。

img
1、发起请求

以去哪儿旅行网站为例,爬取网页数据,首先发送请求。

img

import requests 

u='https://travel.qunar.com/p-cs300100-xian-jingdian'#爬取网址 
response=requests.get(u) 
print('状态码:{}'.format(response.status_code)) 

if response.status_code != 200:    
    pass 
else:
    print("服务器连接正常")

img

这里返回状态码为200,说明服务器连接正常,可以进行数据爬取。

2、获取响应内容

服务器连接正常后,直接打印返回内容,这里返回整个网页html。

print(response.text)

img

3、解析数据

网页结构由复杂的html语言构成,这里借助BeautifulSoup库进行解析。

img

from bs4 import BeautifulSoup   

ri = requests.get(url=u) 
soupi=BeautifulSoup(ri.text,'lxml')#解析网址 
ul=soupi.find('ul',class_='list_item clrfix') 
lis = ul.find_all('li') 
lis

img

对于特定的标签进行定位,输出text。

print(soupi.h1.text)#标签定位,输出text 
lis=ul.find_all('li') 
print(lis[0].text)

img

建立一个字典,解析目标标签内容。

li1=lis[0] 
dic={} 
dic['景点名称']=li1.find('span',class_="cn_tit").text 
dic['攻略提到数量']=li1.find('div',class_="strategy_sum").text 
dic['评论数量']=li1.find('div',class_="comment_sum").text 
dic['lng']=li['data-lng'] 
dic['lat']=li['data-lat'] 
dic

img

使用for循环解析标签内容。

import requests from bs4 
import BeautifulSoup 

u1='https://travel.qunar.com/p-cs300100-xian-jingdian' 
ri=requests.get(url= u1)  
soupi=BeautifulSoup(ri.text,'lxml')#解析网址 
ul=soupi.find('ul',class_='list_item clrfix') 
lis=ul.find_all('li') 
for li in lis:
     dic={}
     dic['景点名称']=li.find('span',class_="cn_tit").text
     dic['攻略提到数量']=li.find('div',class_="strategy_sum").text
     dic['评论数量']=li.find('div',class_="comment_sum").text
     dic['lng']=li['data-lng']
     dic['lat']=li['data-lat'] 
print(dic)

img

根据翻页规律设置翻页数,这里设置一个列表,用来循环爬取前十页数据。

#根据翻页规律,设置翻页数 
urllst=[] 
for i in range(11):
     urllst.append('https://travel.qunar.com/p-cs300100-xian-jingdian'+str('-1-')+str(i))
     urllst=urllst[2:11]
     urllst.append('https://travel.qunar.com/p-cs300100-xian-jingdian') 
urllst

img

4、保存数据

新建一个空的数据框,用于保存数据。

import pandas as pd

dic = pd.DataFrame(columns=["景点名称", "攻略提到数量", "评论数量", "lng", "lat"])
dic

img

在空的数据框中保存第一条数据,并且使用for循环,依次爬取其余页面的数据。

n=0 
dic.loc[n, '景点名称'] = li.find('span', class_="cn_tit").text 
dic.loc[n, '攻略提到数量'] = li.find('div', class_="strategy_sum").text 
dic.loc[n, '评论数量'] = li.find('div', class_="comment_sum").text 
dic.loc[n, 'lng'] = li['data-lng'] 
dic.loc[n, 'lat'] = li['data-lat'] 
dic

img

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

点此免费领取:CSDN大礼包:《python学习路线&全套学习资料》免费分享

Python学习大纲

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

入门学习视频

Python实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述
在这里插入图片描述
最后,千万别辜负自己当时开始的一腔热血,一起变强大变优秀。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值