背景介绍
在平台上看到一个《有哪些不怎么知名,待遇却很好的公司?》的话题,有15,473关注者,被浏览次数达8,043,171,看来很多人在默默关注这类信息,于是决定通过爬虫技术、自然语言处理技术对该话题进行统计分析
数据采集
通过Python采集了该话题下的245个回答
部分采集代码展示:
def on_response(response):
# if '/api/v4/search_v3?gk_version=gz-gaokao' in response.url and response.status == 200:
if 'api/v4/questions/30663527/feeds?' in response.url and response.status == 200:
for i in response.json()['data']:
insert_data(i)
# pass
with sync_playwright() as p:
browser = p.firefox.launch(headless=False)
page = browser.new_page()
page.on('response', on_response)
page.goto(
'url'
)
time.sleep(2)
while True:
page.evaluate("window.scrollTo(0, document.body.scrollHeight);")
if 'Button QuestionAnswers-answerButton Button--blue Button--spread' in page.content():
break
time.sleep(3)
page.wait_for_load_state('networkidle')
time.sleep(10)
browser.close()
部分数据展示
数据分析
做完EDA后只想说羡慕,别人家的公司。
ORG抽取
从235篇答案中进行NER识别,抽取提到的公司名,由于数据量太小并且都是一些闷声发大财的公司,所以本次分析只展示不排名。
业务词抽取
通过语义关系网络抽取了top20的待遇指标,并做了饼图展示。
从图中反映的信息可以看出是否加班、工资、工作时间、福利等指标是目前打工人最关心的。
联系作者
- 数据定制采集
- 数据分析
- 网站建设