端午去哪?“去广西,一起嘛”,看看我用Python分析的走一波

端午去哪?“去广西,一起嘛”,看看我用Python分析的走一波

端午去哪?“去广西,一起嘛”,看看我用Python分析的走一波

端午去哪?“去广西,一起嘛”,看看我用Python分析的走一波

经过一番尝试,我们成功找到了请求返回的真实url和关键参数,这里返回的是json格式的数据,里面包含了一个html文本。

端午去哪?“去广西,一起嘛”,看看我用Python分析的走一波

端午去哪?“去广西,一起嘛”,看看我用Python分析的走一波

3.正式爬取数据

总体思路是爬取索引页中每一个行程的发起人和详情页url,之后进入详情页抓取出发时间、历史、目的地、出发城市、希望人数以及报名人员情况等数据,每个行程的索引页数据和详情页数据合 并后作为该行程的完整数据进行存储。以下是爬虫程序的总入口:

端午去哪?“去广西,一起嘛”,看看我用Python分析的走一波

端午去哪?“去广西,一起嘛”,看看我用Python分析的走一波

所以,我们必须先对获取到的数据进行清洗, 以期为正式的数据分析奠定基础。

1.规范格式

首先对历时、希望人数、报名人数(女)、报名人数(男)这几项数据进行清洗,仅保留数字部分;其次对出发是 按、出发地点相关数据进行情况,取到“:”及前面的内容。感谢pandas.Series.str方法,使我们可以非常简单地完 成上述工作,功能函数如下:

端午去哪?“去广西,一起嘛”,看看我用Python分析的走一波

only_num(self, col_list):去除数据中的非数字部分。

no_colon(self, col_list):去除数据中的“:”及其前面的内容。

端午去哪?“去广西,一起嘛”,看看我用Python分析的走一波

1.男女比例

首先对参与出行计划的人员性别进行分析,利用dataframe的sum()和groupby().count()方法可以很容易获得行程 发布者和参与者的性别分布:

端午去哪?“去广西,一起嘛”,看看我用Python分析的走一波

从图中可以看出,发起人以女性居多,约占总数的60%,而参与者刚好相反,男性比 例约为60%,估计是女同胞们更擅长精心策划行程,而男同胞们大多比较“懒”吧~

2.出发时间

这里我们首先用dataframen的groupby()方法,以“出行时间”为关键字对数据进行分组,分别统计每天的行程数量 和参与者数量,然后画出折线图。

端午去哪?“去广西,一起嘛”,看看我用Python分析的走一波

端午去哪?“去广西,一起嘛”,看看我用Python分析的走一波

端午去哪?“去广西,一起嘛”,看看我用Python分析的走一波

端午去哪?“去广西,一起嘛”,看看我用Python分析的走一波

关注小编 私信01 可获取源码哦

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值