微博 用户画像_面向新浪微博的用户画像研究

该研究聚焦于新浪微博用户画像,通过分布式获取2万用户数据,进行预处理,包括敏感词过滤、用户行为过滤等。探讨了One-Hot、文本分布式、关系网络分布式和半监督分布式四种用户表示方法,用于属性分类,取得高准确率、召回率和F1值。研究还涉及数据清洗、降维、用户关系网络构建等实验方法。
摘要由CSDN通过智能技术生成

内容简介:

面向新浪微博的用户画像研究,毕业论文,共57页,24481字。

摘要

微博作为一种新型的短文本社交网络,已经成为了中国最大的微博社交网络平台并积累了大量的用户和影响力。微博发布门槛较低,文体个性随意随意,且内容形式丰富多样,因此携带有大量的用户特征信息。如何根据用户在社交网络上的行为信息以及其所发布内容推断用户的属性信息(即构建用户画像)对科学研究和商业应用都有着极高的价值。

本文中,针对面向新浪微博的用户画像任务进行了以下两方面的研究:

1.用户数据的获取,预处理。文中首先探讨了一种分布式获取用户数据的方法并在新浪微博上获取了2万用户的相关数据。同时,本文探究了在微博语料上进行数据清洗的方法——通过敏感词过滤、用户行为过滤、微博来源过滤等方法删除了无关的用户和部分用户微博;通过微博地理位置验证修正了未及时更改的地域属性信息。

2.用户特征表示对用户画像中不同属性分类结果的影响。本文将用户属性识别问题视为分类问题,在分类模型选择为逻辑回归的基础上,主要探究了用户的One-Hot表示、基于文本的分布式表示、基于关系网络的分布式表示、半监督的分布式表示四中用户表示的方法。同时,在此基础上同时使用One-Hot表示和分布式表示得到了三个特征最高的准确率、召回率和F1值。

关键词:用户画像;属性分类;用户表示

目 录

摘 要I

AbstractII

第1章 绪 论1

1.1课题背景1

1.2研究目的和意义1

1.3短文本(微博)社交网络用户画像工作的特点2

1.4国内外研究现状和发展3

1.5 本文主要研究内容4

1.6本章小结4

<
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值