前言:
这两天获取了两份关于长沙的数据:长沙景点和长沙美食,之后进行了分析,如果有朋友想去长沙或者周边城市玩,要仔细看看喔。
导入库
import pandas as pd
import re
import csv
import json
import requests
import random
# 显示所有列
# pd.set_option('display.max_columns', None)
# 显示所有行
# pd.set_option('display.max_rows', None)
# 设置value的显示长度为100,默认为50
# pd.set_option('max_colwidth',100)
# 绘图相关
import jieba
import matplotlib.pyplot as plt
from pyecharts.globals import CurrentConfig, OnlineHostType
from pyecharts import options as opts # 配置项
from pyecharts.charts import Bar, Pie, Line, HeatMap, Funnel, WordCloud, Grid, Page # 各个图形的类
from pyecharts.commons.utils import JsCode
from pyecharts.globals import ThemeType,SymbolType
import plotly.express as px
import plotly.graph_objects as go
长沙景点
数据获取
长沙景点的数据获取方法和之前那篇关于厦门的文章是一样的,只是重新跑了一遍代码,具体过程不再阐述,感兴趣的朋友可以看之前的文章,爬取的字段:
-
中文名
-
英文名
-
攻略数
-
评价数
-
位置
-
排名
-
驴友占比
-
简介
具体的源代码如下:
最终数据有1152条,数据中绝大部分是长沙的景点数据,也有少量少量周边城市,比如:宁乡、浏阳等的数据,整体的数据前5行如下:
下面重点介绍数据分析的过程
整体情况
首先看看整体的数据情况:
fig = px.scatter(changsha[:10], # 前10个
x="strategy", # 攻略数
y="comment", # 评论数
color="comment", # 颜色选取
size="comment", # 散点大小
hover_name="cn_title",
text="cn_title" # 显示文字
)
fig.update_traces(textposition='top center') # 文本顶部居中显示
fig.show()
很显然:橘子洲、岳麓山、岳麓书院、太平老街排名靠前
排名靠前景点
看看排名靠前的景点是哪些?
# 根据ranking排序取出前20名数据,排除ranking=0的数据,再取出前10数据
changsha1 = changsha[changsha["ranking"] != 0].sort_values(by=["ranking"])[:20].reset_index(drop=True)
changsha1.head(10)
通过排名我们发现:橘子洲(烟火、大桥、天心阁)、岳麓山(书院)、黄兴路步行街、马王堆汉墓遗址、湖南省博物馆,整体排名很靠前,深受游客们欢迎,具体看看排名前20的景点:
评论火爆景点
很多游客到了一个景点喜欢写评论,看下哪些景点获得大量的评论:
changsha2 = changsha[changsha["comment"] != 0].sort_values(by=["comment"],ascending=False)[:10]
# 绘图
fig = px.scatter(
changsha2,
x="cn_title",
y="comment",
size="comment",
color="comment",
text="cn_title"
)
fig.update_traces(textposition="top center")
fig.show()
攻略在手,旅游不愁
出门旅