天池新闻推荐入门赛学习打卡task02

行为学

Behavioural sciences行为科学探讨的是生物体内的认知过程和自然界中生物体之间的行为相互作用。它通过自然主义的观察、受控的科学实验和数学模型,对人类和动物的行为进行系统的分析和研究。它试图通过严格的公式和观察来完成合法的、客观的结论,行为科学的例子包括心理学、心理生物学、人类学和认知科学。一般来说,行为科学主要涉及人的行动,并常常试图概括人类行为与社会的关系。

行为科学包括两大类:神经-信息科学和社会-关系科学。
信息处理科学涉及认知实体对社会环境刺激的信息处理,以参与决策、社会判断和社会感知,从而促进个体功能和有机体在社会环境中的生存。这些科学包括心理学、认知科学、行为分析、心理生物学、神经网络、社会认知、社会心理学、语义网络、伦理学和社会神经科学等。
另一方面,关系科学涉及社会系统中生物体或认知实体之间的关系、互动、通信网络、关联和关系策略或动态。这包括社会学社会心理学、社会网络、动态网络分析、基于代理的模型、行为分析和微观模拟等领域。

行为科学和社会科学这两个术语经常被交替使用,虽然这两大领域相互关联,研究的是行为的系统过程,但它们对行为的各个维度的科学分析水平不同。
行为科学将经验数据抽象化,以研究社会系统中生物体内和生物体之间的决策过程和交流策略。这涉及心理学、社会神经科学、伦理学和认知科学等领域。相反,社会科学提供了一个感性的框架,通过社会组织对个体和群体结构调整的影响来研究社会系统的过程。它们通常包括社会学、经济学、公共卫生、人类学、人口学和政治学等领域。
这些学科的许多子领域跨越了行为科学和社会科学之间的界限。例如,政治心理学和行为经济学使用行为学方法,尽管在更广泛的政治学和经济学领域,主要侧重于系统和体制因素。

线上新闻浏览分析

新闻的特定指标

停留时间:估计读者在页面上花费的总时间。

滚动深度:读者在页面上到达的最远位置。

相对深度:文章在读者屏幕上可见的比例。

页面互动:与页面的互动量。

平均滚动速度:读者在页面可见部分的滚动速度。

新闻内容的类型会影响阅读行为的类型,体育新闻有更多的扫描者(人们快速寻找比赛结果),而知识型新闻则有更多的闲人,人们实时按照说明进行阅读。通过了解新闻内容将如何影响读者行为,出版商可以更好地安排报道形式,让读者更多参与阅读。例如,体育和财经类文章可以通过在文章开头隐去一些信息来延长阅读时间。另一方面,杂志类文章可以在开头提供大量信息,仍然可以享受长时间的参与性阅读行为。
这些知识也可以用来改进相关内容的推荐。通过区分最适合文章的读者行为类型,推荐系统就可以根据读者的参与情况为他们匹配新的文章。
与此相关的是,BBC的研发人员Tristan Ferne在他的文章《超越800字:新的新闻数字故事格式》中指出了12种新闻格式,他在文章中还解释了这种格式如何有助于鼓励读者参与。

新闻回避者

第六种阅读行为是完全避开新闻。这种类型的读者行为由Benjamin Toff和Rasmus Kleis Nielsen在谷歌DNI资助的一项研究中进行了研究。在他们的报告 "I Just Google It "中,Toff和Nielsen研究了不经常阅读新闻的读者如何依靠社交媒体和搜索引擎算法获取新闻。由此,他们发现了三种不同类型的新闻回避者。
守株待兔型——News finds me:从社交平台获取信息源
搜索偏好者——The information is out there:倾向于在网络搜索引擎进行信息搜索
怀疑论者——I don’t know what to believe:对媒体不信任

时间不是最好的参与指数

人们很容易认为,参与度的提高纯粹是因为视频需要更长的观看时间,从而增加了阅读时间。根据美国新闻研究所的数据,平均而言,人们在有视频或音频的故事上花费的时间只比没有视频或音频的故事长7%。然而,实际上,更多的人正在观看包含这些丰富元素的故事,更多的人正在与他们的同伴分享这些故事。

Datawhale讲义

讲义链接:

http://datawhale.club/t/topic/197

赛事链接:

https://tianchi.aliyun.com/s/dc6103f06c18ae9e48e9d6cce9785953

数据分析
数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据,具体的文件中的每个字段表示什么实际含义,以及数据集中特征之间的相关性,在推荐场景下主要就是分析用户本身的基本属性,文章基本属性,以及用户和文章交互的一些分布,这些都有利于后面的召回策略的选择,以及特征工程。
建议:当特征工程和模型调参已经很难继续上分了,可以回来在重新从新的角度去分析这些数据,或许可以找到上分的灵感

导包

# 导入相关包
%matplotlib inline
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns
plt.rc('font', family='SimHei', size=13)

import os,gc,re,warnings,sys
warnings.filterwarnings("ignore")

读取数据

path = './data_raw/'

#####train
trn_click = pd.read_csv(path+'train_click_log.csv')
item_df = pd.read_csv(path+'ar
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值