某人均月薪十万社交平台数据问题采集分析-某乎

背景介绍

在平台上看到一个《有哪些不怎么知名,待遇却很好的公司?》的话题,有15,473关注者,被浏览次数达8,043,171,看来很多人在默默关注这类信息,于是决定通过爬虫技术、自然语言处理技术对该话题进行统计分析

数据采集

通过Python采集了该话题下的245个回答
部分采集代码展示:

def on_response(response):
    # if '/api/v4/search_v3?gk_version=gz-gaokao' in response.url and response.status == 200:
    if 'api/v4/questions/30663527/feeds?' in response.url and response.status == 200:
        for i in response.json()['data']:
            insert_data(i)
        # pass
with sync_playwright() as p:
    browser = p.firefox.launch(headless=False)
    page = browser.new_page()
    page.on('response', on_response)
    page.goto(
		'url'
    )
    time.sleep(2)
    while True:
        page.evaluate("window.scrollTo(0, document.body.scrollHeight);")
        if 'Button QuestionAnswers-answerButton Button--blue Button--spread' in page.content():
            break
        time.sleep(3)
    page.wait_for_load_state('networkidle')
    time.sleep(10)
    browser.close()
部分数据展示

在这里插入图片描述

数据分析

做完EDA后只想说羡慕,别人家的公司。
在这里插入图片描述

ORG抽取

从235篇答案中进行NER识别,抽取提到的公司名,由于数据量太小并且都是一些闷声发大财的公司,所以本次分析只展示不排名。
不怎么知名待遇却很好的公司-词云图

业务词抽取

通过语义关系网络抽取了top20的待遇指标,并做了饼图展示。
在这里插入图片描述
从图中反映的信息可以看出是否加班、工资、工作时间、福利等指标是目前打工人最关心的。

联系作者
  • 数据定制采集
  • 数据分析
  • 网站建设
    在这里插入图片描述
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值