2012-Geolocation Prediction in Social Media Data by Finding Location Indicative Words
finding location indicative words (LIWs) 朴素贝叶斯 LR
2012-Supervised Text-based Geolocation Using Language Models on an Adaptive Grid
k-d树 KNN KL散度度量
2014-Hierarchical Discriminative Classification for Text-Based Geolocation
LR
2016-Geolocation Prediction in Twitter Using Location Indicative Words and Textual Features
多项式朴素贝叶斯
2017-Twitter Geolocation Prediction using Neural Networks
LSTM 预测city 效果一般
2017-On Predicting Geolocation of Tweets using Convolutional Neural Network
CNN 预测城市和国家,和2019的HLPNN是同一个作者。
特征为文本特征+分类特征+时间戳(也切分为分类特征)
文本特征的embedding模型为简单的textCNN
max-pooling时应用dropout。
对分类特征用one-hot表示,追加在文本vector后面。
然后用softmax生成概率。
loss为交叉熵
优化方式为小批量随机梯度下降
在国家预测上达到92.1%的准确率,在城市预测上达到52.8%的准确率。
2018-Twitter User Geolocation using Deep Multiview Learning
用深度多视角学习预测Twitter用户的地理位置
地址:https://arxiv.org/abs/1805.04612
Presented at IEEE International Conference on Acoustics, Speech and Signal Processing, 2018
预测社交网络(例如Twitter)上用户的地理位置是近期的热门研究主题,已经提出了多种方法。大多数现有的研究都遵循基于内容或基于连接两种方法:前者基于用户生成的内容,而后者发掘用户之间社交网络的结构。
作者提出一种更通用的方法,这种方法不仅包含前述两种方法,还融入了其他可获取的信息去创建一个统一的模型。这种叫Multi-Entry Neural Network (MENET)的方法,利用了最新的深度学习和多视角学习成果。
利用文本,网络,和原始数据特征来实现的MENET方法,能有效发掘Twitter用户的地理位置,在2个公认的数据集上实现了应用的最高水准。
从文本中提取TF-IDF和doc2vec特征,从文本的用户连接中提取node2vec特征。
用户级的预测,将每个用户所有的推文合成一个document。
参考文章:https://zhuanlan.zhihu.com/p/37267070
2018-Semantic Location in Email Query Suggestion
基于位置的查询建议/补全,结合click-content 基于概率,没看太懂
2018-Geolocation prediction in social media data using text analysis- A review
一篇比较浅显的综述。
将地理位置预测方法分为基于内容的地理位置预测和基于用户配置文件的地理位置预测两大类。
从文本数据中提取位置的方法:
- NER
- Location Indicative Word (LIW) Approach
- User Location Profile Approach
- Social Relation Approach (不靠谱)
地理编码过程:
- Geonames.org
- Google Maps API
2019-A Hierarchical Location Prediction Neural Network for Twitter User Geolocation
地址:https://arxiv.org/abs/1910.12941
Accepted by EMNLP 2019
分级预测,国家、城市 bi-LSTM +transformer + LINE
2019-Identifying Linguistic Areas for Geolocation
基于k-d树的point-to-city模型
2021-Predicting Geolocation of Tweets: Using Combination of CNN and BiLSTM
地址:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8264169/
其他比较老的方法
2005-Detecting dominant locations from search queries.
Wang et al.递归地将查询分解为原子标记,挖掘最流行的网站以提取精确的查询位置,并挖掘查询日志和顶部搜索结果以发现隐含的查询位置。
2005-Using semantic networks for interpreting geographical queries.
Leveling等人通过从查询中提取地理概念来建立地理知识库,并将地理概念与通过拓扑、方向和邻近关系进行语义连接的现有概念进行扩展。该地理知识库进一步用于解释地理查询。
2008-Modeling and visualizing geo-sensitive queries based on user clicks
基于用户点击构建地理点击概率模型,以确定查询是否对位置敏感,并进一步检测相关位置