论文|翻译——行为数据挖掘(持续更新!)

 

[1] 位置推荐

[1]A complementing preference based method for locationrecommendation with cellular data[Knowledge-Based Systems]

  • 研究背景
  • ①现有与位置推荐相关的研究,绝大多数为基于移动数据(隐式反馈数据)的推荐,其将用户未受访位置作为负样本的方式(仅考虑正样本),无法提供有关用户偏好的详细信息,例如显式反馈中的分级评级(1~5:不喜欢~喜欢);
  • ②现有研究忽视了用户空间活动会受地理位置制约的事实,将全部的用户-地理位置用户训练矩阵分解模型,干扰了实际推荐的性能。
  • 改进思路
  • ①挖掘地理相似用户的位置信息来弥补目标用户的偏好
  • ②位置过滤策略(仅补充访问概率较大的位置的值)
  • 整体流程
  • ①对“蜂窝数据(cellular data)”进行预处理,生成:网格数据集(其中,停留点<经度,维度,访问频率>)、每个用户访问频率最高的5个位置
  • ②对“蜂窝数据(cellular data)”进行预处理,生成:用户位置偏好矩阵
  • ③构建“每个用户的地理偏好网络(geosimilarity network)” ← 基于每个用户访问频率最高的5个位置得到的
  • ④计算目标用户“地理偏好网络”中未访问位置(目标用户最可能访问的位置)的“访问概率” ,该概率为“用户余弦相似度(与一级用户的相似度)”+“地理位置影响”共同表示的最大值,其中地理位置影响由“多中心高斯模型”结果模拟表示
  • ⑤鉴于位置的“访问概率”与“用户偏好”存在正相关关系,文章通过一种“模糊数学的钟型隶属函数”将其转换为位置的“补充偏好值”(访问概率的最大值对应1,访问概率的中位数置位0.5)
  • ⑥将目标用户位置的“最大补充偏好值”填充到“用户位置偏好矩阵”的对应用户的对应位置(位置过滤),得到“补充偏好矩阵
  • ⑦基于“补充偏好矩阵”构建“加权正则化矩阵分解模型”,学习得到“潜在用户特征矩阵+潜在位置特征矩阵
  • 一般用户推荐策略:对于一般用户通过“”预测用户i对位置j的可能访问频次
  • 第一类冷启动用户推荐策略:此类用户的数据量较一般用户要小,文章将其同一般用户一同用于模型训练,进而使用一般用户对位置的访问频次预测公式
  • 第二类冷启动用户推荐策略:此类用户前5个最常访问位置也提取不到,文章首先根据他们的停留点和其他用户的前5个经常访问的位置构建他们的GSN(实际上是一种填充策略),然后将其和一般用户一同用于模型训练,进而使用一般用户对位置的访问频次预测公式
  • ⑪而在实验部分,文章采用西安市2015年9月1日到2015年9月30日共6622391位用户的移动手机3G蜂窝数据。同时,为减少数据本身对实验结果所产生的偶然性影响,文章从实验数据中随机选择3个实验组,每组包含1000个用户,更进一步的,按照数据时间将每组数据集前15天划分为训练集和后15天划分为测试集两部分(原因:保证最常访问位置不会被破坏+过去预测未来),剔除测试数据中包含在训练数据对应网格中的数据,并通过网格分布频率进一步将训练数据划分为一般用户、第一类冷启动用户和第二类冷启动用户。
  • 推荐效果的评价指标:准确率、召回率和F1系数
  • 对照实验算法:U-CF-Cosine、PEM、WRMF、BPRMF和IRenMF(并对每种方法进行分析)
  • 对照实验设计:控制补充用户偏好强度的参数值合理性验证、位置过滤合理性验证和不同类型用户推荐的有效性验证。(在此处还提到了两种统计检验方法:秩和检验+Nemenyi分析+相对性能衰减
  • 实验结果:文章所提推荐算法的推荐效果最优,但是算法效率略有下降

[2]“心理学五大人格特征”预测“日常空间行为”

[2] Big Five personality traits predict daily spatial behavior: Evidence from smartphone data

  • 研究背景
  • 现有的揭示“人格特征”与“日常空间行为”关系的有关研究较少且得出的结果存在不一致的情况,可能的愿意有两个:第一,早期的研究仅仅关注日常空间行为的一两个特定的特征;第二,使用不同的数据源
  • 改进思路
  • ①目的:在前人研究的基础之上,更加系统的验证“人格特征”与“日常空间行为”之间的联系
  • ②针对仅关注特定日常空间行为特征的问题+数据源问题:文章使用智能手机信号数据,以更连续、无创、全面的方式捕捉运动,而不是特定的特征(额外添加“性别”+“年龄”),来关注一般的日常空间行为。
  • ③文章对五大人格特征与个体空间行为的关系提出了具体的假设,但该假设并非是可靠且科学的假设(原因主要是:前期的研究与理论较少)
  • 整体流程:
  • ①提出假设:“神经质(Neuroticism)”与“日常空间行为”之间存在负相关关系(具体表现:较少去不同的地方,移动熵较低,总旅行距离较短,移动范围较小)
  • ②提出假设:“自觉性(Conscientiousness)”与“日常空间行为”之间存在负相关关系(具体表现:较少去不同的地方,移动熵较低)
  • ③提出假设:“宜人性(Agreeableness)”与“日常空间行为”之间无明确关系(具体表现:前人研究并未发现两者之间存在关系)
  • ④提出假设:“开放性(Openness)”与“日常空间行为”之间存在正相关关系(具体表现:去更多或更远的地方旅行,移动熵较高,总旅行距离较长,移动范围较大)
  • ⑤提出假设:“外向性(Extraversion)”与“日常空间行为”之间存在正相关关系(具体表现:较喜欢去不同的地方,移动熵较高)
  • 实验数据采集:2018年4月份招募了292名高校大学生进行人格特征调查问卷,并为其每人支付15元奖励。问卷前,首先给予每人一份包含研究目标、风险、好处和获取其智能手机信号数据等说明的告知书,以征求实验人员的同意。最终,18人拒绝,2人提供的手机号相同,29个人的手机信号数据无法通过合作电信公司获取,故最终实验对象为243人(其中,39.51%为女性,平均年龄19.84岁)。最终实验数据:问卷数据+移动手机信号数据
  • 量化方法:(1)五大人格特征:中国五大人格特征量表简表(40个题,6级李克特量表);(2)日常空间行为:电信公司获取的移动手机信号数据
  • 日常空间行为的量化特征:(1)不同地点的访问次数(某一时段内的停留点的数量);(2)总旅行距离(某一时段内各停留点距离的综合);(3)移动熵(表示一个人行踪的可预见性,其中,概率为某一停留点停留时长占总时长的比重);(4)移动范围(覆盖某一时段内所有停留点的最小圆的面积);(5)年龄;(6)性别    →  虽然在许多研究中发现这些空间变量是相关的,但它们不一定相互关联
  • 实验环节:(1)先对“五大人格特征”+“年龄”+“性别”+“4个空间行为量化特征(周末)”进行相关性分析,并分析结果(但是,相关性分析无法确定变量之间到底是谁影响谁,也就是影响方向不确定;并且,相关性分析结果中可见,五大人格特征之间存在较强的相关性,某一个自变量对日常空间行为的独特贡献难以确定)

  •   (2)以周末“日常空间行为量化特征”为因变量,“五大人格特征”为自变量,“年龄”和“性别”为控制变量,进行“层次回归分析”(周末):验证了“假设2”、“假设5”,否定了“假设3”、“假设1”和“假设4”,特别的,对于不同地点的访问次数来说,性别也是一个十分重要的自变量

  •  ⑩研究展望:(1)研究群体单一(学生:财力和时间不足),研究结果的普适性不足;(2)低级别人格特征相比于五大人格特征更有利于捕获细微的人格差异;(3)除了通过运动数据的空间划分老发现潜在个体差异之外,也可通过运动数据的时间划分来发现潜在的个体差异;(4)智能手机信号数据的空间分辨率较低且采样频率不均匀(手机有没有带,手机有没有点,手机有没有动)

【3】影响用户体育活动APP粘性的影响因素研究(综述)

【3】Factors influencing user’s adherence to physical activity applications: A scoping literature review and future directions

  • 研究背景
  • 体育活动APP用户粘性较低严重影响了APP本身的作用,深入了解影响体育活动APP粘性的因素是APP开发人员和干预设计师的一个重要事项
  • 改进思路
  • 目的:(1)通过对历史文献的综述,对影响体育活动APP粘性的因素进行总结,已拓展现有知识并为体育活动APP的干扰、开发及提升用户粘性提供指导;(2)在综述结果的基础之上概述未来研究方向。
  • 整体流程
  • 采用Arksey等人提出,并经Levac等人优化的方法论框架作为文章综述的研究方法
  • 确定文章检索策略:在Web of Science、Embase、IEEE Xplore、PubMed、ScienceDirect、ACM和Scopus共计7个数据库中进行检索;检索时间限定为2014年1月1号~2018年12月31号,原因在于该时间段正好对应这体育运动APP应用量的增长阶段;以关键词“adherence”、“physical activity”、“mobile app”和以上关键词的同义词进行文献检索
  • 现有针对体育活动用户粘性的定义仅涉及“用户持续使用APP的意图”和“APP的实际使用行为”两个方面,本文则选择“体育活动APP的使用频率”、“体育活动APP持续使用的动机”、“体育活动APP中功能的使用程度”、“体育活动APP的持续使用时间”共计4个方面对用户粘性进行定义。同时,针对影响体育活动APP用户粘性的因素,文章分为三大类:“个人因素”、“技术特征”和“情景因素”。

  • 文献筛选结果进行了描述,包括但不限于:文献的基本特征、研究时长和体育活动用户粘性、影响用户粘性的因子(详细的进行了论述)等。
  • 进行讨论并指明未来研究方向:(1)研究框架:采用Canhoto et al的研究框架并进行改进;(2)研究城市:多数为美国高收入城市,忽略了低收入城市;(3)样本量:多数研究样本量较小,研究结果的鲁棒性较低;(4)多数研究的研究时长较短且缺少对用户粘性的评估;(5)现有研究对“技术特征”研究的较多,而对“个人因素”和“情景因素”的研究较少;(6)现有文献多对“积极影响因素”进行研究,较少对“校级影响因素”进行研究;(7)现有研究缺乏用户的努力期望、社会支持功能、用户对干预的态度等因素对用户粘性影响的程度缺乏共识;(8)对影响用户粘性的影响因素之间的因果关系缺乏研究;(9)文章缺陷:由于包含了一些未报告特定应用程序依从性的研究以及包含的研究中使用的不同应用程序依从性指标,我们的综述在应用程序依从性的综合方面存在局限性。同时,本研究仅仅关注英文文献,忽视了其他语言类型的文献研究内容

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

博士僧小星

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值