mysql查询时间类型c语言处理_资讯类app用户热度及资讯类型分析-Mysql进行数据预处理...

ad065f4ad2b41aedd2ad589c97b28638.png
本文是“资讯类app用户热度及资讯类型分析”一文中,Mysql进行数据预处理的部分。因为篇幅可能比较长,而且摘出来不会过于影响原文分析思路,所以这里单独进行介绍。 (本文前四部分与正文基本相同,正文跳转读者可忽略,直接翻到第五部分)

一、背景分析

随着今日头条的崛起,资讯类app已经成为各巨头争夺流量入口的又一主要阵地。除了百度和阿里文娱旗下UC浏览器分别推出了百度百家和UC头条,腾讯也在发布天天快报后投资了趣头条,而趣头条也在18年9月赴美上市。这些资讯类app有一个共同的特点,他们都是基于机器学习和数据挖掘的资讯推荐类产品,为用户推荐其感兴趣的信息。

通过百度指数搜索“今日头条”、“百度百家”、“趣头条”以及“UC头条”四个关键字,我们可以发现今日头条搜索指数和搜索趋势均远高于其他几款产品,说明其产品热度一直较高,受到了更多人的关注。

4d3eb9b7abe68dffa0017986338cb6f8.png
近一个月四款app搜索热度

72d5d15c83696097cdd0923b61235dc3.png
2011年以来四款app索索热度趋势

趣头条近期的发展速度也很迅猛,尤其是9月15日前后,其热度超过了今日头条,可能是因为上市新闻引起了大家的关注。相对而言,百度百家和UC头条则一直不温不火,热度一直不高。

二、问题定位

结合以上背景,本文主要对以下几个问题进行探索。

不同app之间横向对比:

  1. 不同app的用户热度,即活跃度比较(从阅读量、评论量、资讯量及作者量等角度分析)
  2. 不同app的资讯类型差异(比较阅读量最高、资讯量最多的资讯类型都是哪些,不同app中主要资讯内容是否有差异)

以今日头条为例,不同时段用户热度的纵向对比:

  1. 不同周期的用户热度趋势(一周中,不同周期用户浏览行为和作者产出特点的差异)
  2. 不同时刻的用户热度趋势(一天中,不同时刻用户浏览行为和作者产出特点的差异)

目的:分析不同app用户浏览以及内容创作者产出特点,为用户浏览资讯以及创作者发布资讯提供建议。

三、获取数据

本文数据抓#取于“自媒咖”,抓#取方式是利用某数据抓#取工具在每晚十二点后开始抓#取前两天的数据。最终抓#取了四款app的文章相关信息,其资讯发布时间范围在2018-10-14至2018-10-21日之间。

c32d35f5d6f1f161e29141a0d1260928.png
自媒咖

本文数据分析所使用到的工具:

  1. Mysql(数据前期的预处理:如数据整合、去重等操作)
  2. Python (数据进一步清洗及分析:如描述性统计以及可视化等)

因为考虑到如果数据抓#取时间距离资讯发布时间太近时,资讯的阅读量等信息会和较早发布的资讯产生较明显差异。因此为尽量避免这种因素的影响,我们选取数据抓#取时间与资讯发布时间相隔一天以上的数据进行分析,例如在10月22日凌晨抓#取前两日(20日和21日)的数据,取20日的数据进行分析。

四、数据描述

数据量:本文通过Mysql进行数据预处理,最终筛选出122119条数据,并利用Python进行数据处理和分析。

字段释义:

d6428e84f6205c338ee1ada2444a273f.png

五、数据清洗

5.1 利用Mysql进行数据前期处理

2750a05ee3fad4bb79363c0107365ddb.png
Mysql数据预处理过程中所建表

5.1.1 先将抓#取的数据导入到Mysql

1.在Mysql中设计表结构

497e0fcda273bab4211b342b0df6d014.png

2、将抓#取到的数据从Excel中导入数据库

817fac8476dcbf41e8674b852fcc7947.png
原始数据

adfb2c006122b7883799866e21586e4f.png
原数据分散在各个excel中

710d075291dba1304204997168a898cd.png
将Excel数据导入已创建的数据库表中

创建“今日头条”,“趣头条”,“百度百家”,“UC头条”的基础数据表toutiao_base、qu_base、baidu_base、uc_base。

5.1.2 数据预处理

在base表的基础上,将时间数据转为时间类型、提取资讯类型等,并创建表存储清洗后的数据。

#

接下来,依照创建toutiao_daily的方法,为“趣头条”,“百度百家”,“UC头条”创建数据表。

#

ef38217b4bdbac67b944128d5bb3ed5c.png
各daily表的数据量

5.1.3 利用时间间隔选取数据,并整合数据

  • 选取数据抓#取时间与资讯发布时间相隔一天以上的数据

因每日采集数据量有限,而趣头条数据量较大,故只能抓#取采集时间前一天的部分数据。所以我们仅利用其数据分析趣头条资讯的类型特点,但在进行app数据横向对比时将剔除这部分数据。

  • 重复数据处理
  • 将所有数据导入info_daily表中
#

5.1.4 将数据导出为csv文件

279917f6a51096435c624324d704e6ef.png
接下来,利用Python进一步对数据进行清洗和分析,请参考另外一篇文章。
起名困难症用户:资讯类app用户热度及资讯类型分析​zhuanlan.zhihu.com
6d5a72bd91c639e9a7ba87e15f27d497.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值