我爬取了人人都是产品经理6574篇文章,发现产品竟然在看这些

欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定!

对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tstoutiao,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。

作者:大虾   Python爱好者社区专栏作者

公众号:爱趣IT

作为互联网界的两个对立的物种,产品汪与程序猿似乎就像一对天生的死对头;但是在产品开发链条上紧密合作的双方,只有通力合作,才能更好地推动项目发展。那么产品经理平日里面都在看那些文章呢?我们程序猿该如何投其所好呢?我爬取了人人都是产品经理(http://www.woshipm.com)产品经理栏目下的所有文章,看看产品经理都喜欢看什么。

3901436-6ca73d626b0189d7

1. 分析背景

1.1. 为什么选择「人人都是产品经理」

人人都是产品经理是以产品经理、运营为核心的学习、交流、分享平台,集媒体、培训、招聘、社群为一体,全方位服务产品人和运营人,成立8年举办在线讲座500+期,线下分享会300+场,产品经理大会、运营大会20+场,覆盖北上广深杭成都等15个城市,在行业有较高的影响力和知名度。平台聚集了众多BAT美团京东滴滴360小米网易等知名互联网公司产品总监和运营总监。选取这个社区更有代表性。

1.2. 分析内容

分析人人都是产品经理产品经理栏目下的 6574 篇文章的基本情况,包括收藏数、评论数、点赞数等

发掘最受欢迎的文章及作者

分析文章标题长度与受欢迎程度之间的关系

展现产品经理都在看什么

1.3. 分析工具

Python 3.6

Matplotlib

WordCloud

Jieba

2. 数据抓取

使用 Python编写的爬虫抓取了人人都是产品经理社区的产品经理栏目下的所有文章并保存为csv格式,文章抓取时期为 2012年6月至 2019 年 1月 21 日,共计6574篇文章。抓取 了 10 个字段信息:文章标题、作者、作者简介、发文时间、浏览量、收藏量、点赞量、评论量、正文、文章链接。

2.1. 目标网站分析

这是要爬取的网页界面,可以看到是直接加载出来的,没有AJAX,爬取起来毫无难度。

3901436-30fb9be24f374a27

仔细观察要爬取的网页,我们可以看到页面连接有规律可循,连接中page后面的参数就是页面数,所以我们编写爬虫时可以直接用for循环来构造所有页面连接代码如下:

1importrequests

2frombs4importBeautifulSoup

3importcsv

4

5headers = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

6'Accept-Language':'zh-CN,zh;q=0.9,en;q=0.8',

7'Cache-Control':'max-age=0',

8'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',

9'Connection':'keep-alive',

10'Host':'www.woshipm.com',

11'Cookie':'t=MHpOYzlnMmp6dkFJTEVmS3pDeldrSWRTazlBOXpkRjBzRXpZOU4yVkNZWWl5QVhMVXBjMU5WcnpwQ2NCQS90ZkVsZ3lTU2Z0T3puVVZFWFRFOXR1TnVrbUV2UFlsQWxuemY4NG1wWFRYMENVdDRPQ1psK0NFZGJDZ0lsN3BQZmo%3D; s=Njg4NDkxLCwxNTQyMTk0MTEzMDI5LCxodHRwczovL3N0YXRpYy53b3NoaXBtLmNvbS9XWF9VXzIwMTgwNV8yMDE4MDUyMjE2MTcxN180OTQ0LmpwZz9pbWFnZVZpZXcyLzIvdy84MCwsJUU1JUE0JUE3JUU4JTk5JUJF; Hm_lvt_b85cbcc76e92e3fd79be8f2fed0f504f=1547467553,1547544101,1547874937,1547952696; Hm_lpvt_b85cbcc76e92e3fd79be8f2fed0f504f=1547953708'

12}

13forpage_numberinrange(1,549):

14page_url ="http://www.woshipm.com/category/pmd/page/{}".format(page_number)

15print('正在抓取第'+ str(page_number) +'页>>>')

16response = requests.get(url=page_url, headers=headers)

页面连链接构造完之后我们可以开始爬取文章详情页,提取所需要的信息,在这里用到的解析库是BeautifulSoup,整个爬虫非常简单,完整代码如下:

1#!/usr/bin/env python

2# -*- encoding: utf-8 -*-

3

4importrequests

5frombs4importBeautifulSoup

6importcsv

7

8headers = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

9'Accept-Language':'zh-CN,zh;q=0.9,en;q=0.8',

10'Cache-Control':'max-age=0',

11'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',

12'Connection':'keep-alive',

13'Host':'www.woshipm.com',

14'Cookie':'t=MHpOYzlnMmp6dkFJTEVmS3pDeldrSWRTazlBOXpkRjBzRXpZOU4yVkNZWWl5QVhMVXBjMU5WcnpwQ2NCQS90ZkVsZ3lTU2Z0T3puVVZFWFRFOXR1TnVrbUV2UFlsQWxuemY4NG1wWFRYMENVdDRPQ1psK0NFZGJDZ0lsN3BQZmo%3D; s=Njg4NDkxLCwxNTQyMTk0MTEzMDI5LCxodHRwczovL3N0YXRpYy53b3NoaXBtLmNvbS9XWF9VXzIwMTgwNV8yMDE4MDUyMjE2MTcxN180OTQ0LmpwZz9pbWFnZVZpZXcyLzIvdy84MCwsJUU1JUE0JUE3JUU4JTk5JUJF; Hm_lvt_b85cbcc76e92e3fd79be8f2fed0f504f=1547467553,1547544101,1547874937,1547952696; Hm_lpvt_b85cbcc76e92e3fd79be8f2fed0f504f=1547953708'

15}

16withopen('data.csv','w', encoding='utf-8',newline='')ascsvfile:

17fieldnames = ['title','author','author_des','date','views','loves','zans','comment_num','art','url']

18writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

19writer.writeheader()

20forpage_numberinrange(1,549):

21page_url ="http://www.woshipm.com/category/pmd/page/{}".format(page_number)

22print('正在抓取第'+ str(page_number) +'页>>>')

23response = requests.get(url=page_url, headers=headers)

24ifresponse.status_code ==200:

25page_data = response.text

26ifpage_data:

27soup = BeautifulSoup(page_data,'lxml')

28article_urls = soup.find_all("h2", class_="post-title")

29foriteminarticle_urls:

30

31url = item.find('a').get('href')

32# 文章页面解析,获取文章标题、作者、作者简介、日期、浏览量、收藏量、点赞量、评论量、正文、文章链接

33response = requests.get(url=url, headers=headers)

34# time.sleep(3)

35print('正在抓取:'+ url)

36# print(response.status_code)

37ifresponse.status_code ==200:

38article = response.text

39# print(article)

40ifarticle:

41try:

42soup = BeautifulSoup(article,'lxml')

43# 文章标题

44title = soup.find(class_='article-title').get_text().strip()

45# 作者

46author = soup.find(class_='post-meta-items').find_previous_siblings()[1].find('a').get_text().strip()

47# 作者简介

48author_des = soup.find(class_='post-meta-items').find_previous_siblings()[0].get_text().strip()

49# 日期

50date = soup.find(class_='post-meta-items').find_all(class_='post-meta-item')[0].get_text().strip()

51# 浏览量

52views = soup.find(class_='post-meta-items').find_all(class_='post-meta-item')[1].get_text().strip()

53# 收藏量

54loves = soup.find(class_='post-meta-items').find_all(class_='post-meta-item')[2].get_text().strip()

55# 点赞量

56zans = soup.find(class_='post-meta-items').find_all(class_='post-meta-item')[3].get_text().strip()

57# 评论量

58comment = soup.find('ol', class_="comment-list").find_all('li')

59comment_num = len(comment)

60# 正文

61art = soup.find(class_="grap").get_text().strip()

62

63writer.writerow({'title':title,'author':author,'author_des':author_des,'date':date,'views':views,'loves':int(loves),'zans':int(zans),'comment_num':int(comment_num),'art':art,'url':url})

64print({'title':title,'author':author,'author_des':author_des,'date':date,'views':views,'loves':loves,'zans':zans,'comment_num':comment_num})

65except:

66print('抓取失败')

67print("抓取完毕!")

在这里说一点,评论数的爬取,观察文章详情页你可以发现并没有评论数,我这里是直接计算出来的,可以看到评论是嵌套在ol里面,抓起所有的li,然后就可以计算出,代码如下:

1# 评论量

2comment = soup.find('ol', class_="comment-list").find_all('li')

3comment_num = len(comment)

这样,我们运行一下爬虫就能够顺利爬取 594 页的结果了,我这里一共抓取了 6574 条结果,大概也就玩了两把吃鸡就抓完了。

3901436-056c6401a65f397c

以上,就完成了数据的获取。有了数据我们就可以着手分析,不过这之前还需简单地进行一下数据的清洗、处理。

3. 数据清洗处理

首先,我们需要把csv文件转换为 DataFrame。

1# 将csv数据转为dataframe

2csv_file ="data.csv"

3csv_data = pd.read_csv(csv_file, low_memory=False)# 防止弹出警告

4csv_df = pd.DataFrame(csv_data)

5print(csv_df)

下面我们看一下数据的总体情况,可以看到数据的维度是 6574 行 × 10 列。需要将 views 列更改为数值格式、date列更改为日期格式。

1print(csv_df.shape)# 查看行数和列数

2print(csv_df.info())# 查看总体情况

3print(csv_df.head())# 输出前5行

4#运行结果

5(6574,10)

6

7RangeIndex:

6574entries,0to6573

8Data columns (total10columns):

9title6574non-null object

10author6574non-null object

11author_des6135non-null object

12date6574non-null object

13views6574non-null object

14loves6574non-null int64

15zans6574non-null int64

16comment_num6574non-null int64

17art6574non-null object

18url6574non-null object

19dtypes: int64(3), object(7)

20memory usage:513.7+ KB

21None

22title                   ...                                                         url

2302018,我产品生涯的第二年是这样度过的                   ...                     http://www.woshipm.com/pmd/1863343.html

241从《啥是佩奇》提炼出的产品三部曲                   ...                     http://www.woshipm.com/pmd/1860832.html

252“采坑,填坑”,项目的那些事儿(第六阶段:测试验收)                   ...                     http://www.woshipm.com/pmd/1859168.html

263如何成为CEO信任的产品经理?                   ...                     http://www.woshipm.com/pmd/1857656.html

274如何让程序员放下手中的刀?                   ...                     http://www.woshipm.com/pmd/1858879.html

28

29[5rows x10columns]

date列更改为日期非常简单,代码如下:

1# 修改date列时间,并转换为 datetime 格式

2csv_df['date'] = pd.to_datetime(csv_df['date'])

views列处理思路是增加一列,名字就叫views_num吧,我们可以观察到views列有的数值是整数,有的则是1.7万这种,代码如下:

1#!/usr/bin/env python

2# -*- encoding: utf-8 -*-

3

4importpandasaspd

5importnumpyasnp

6importmatplotlib.pyplotasplt

7importseabornassns

8importre

9fromwordcloudimportWordCloud, STOPWORDS, ImageColorGenerator

10importjieba

11importos

12fromPILimportImage

13fromosimportpath

14fromdecimalimport*

15

16#views列处理

17defviews_to_num(item):

18m = re.search('.*?(万)',item['views'])

19ifm:

20ns = item['views'][:-1]

21nss = Decimal(ns)*10000

22else:

23nss = item['views']

24returnint(nss)

25

26# 数据清洗处理

27defparse_woshipm():

28# 将csv数据转为dataframe

29csv_file ="data.csv"

30csv_data = pd.read_csv(csv_file, low_memory=False)# 防止弹出警告

31csv_df = pd.DataFrame(csv_data)

32# print(csv_df.shape)  # 查看行数和列数

33# print(csv_df.info())  # 查看总体情况

34# print(csv_df.head())  # 输出前5行

35

36# 修改date列时间,并转换为 datetime 格式

37csv_df['date'] = pd.to_datetime(csv_df['date'])

38#将views字符串数字化,增加一列views_num

39csv_df['views_num'] = csv_df.apply(views_to_num,axis =1)

40print(csv_df.info())

41

42

43if__name__ =='__main__':

44parse_woshipm()

我们再输出一下看看各列数据类型:

1

2RangeIndex:

6574entries,0to6573

3Data columns (total11columns):

4title6574non-null object

5author6574non-null object

6author_des6135non-null object

7date6574non-null datetime64[ns]

8views6574non-null object

9loves6574non-null int64

10zans6574non-null int64

11comment_num6574non-null int64

12art6574non-null object

13url6574non-null object

14views_num6574non-null int64

15dtypes: datetime64[ns](1), int64(4), object(6)

16memory usage:565.0+ KB

17None

可以看到数据类型已经变成我们想要的了,下面,我们看一下数据是否有重复,如果有,那么需要删除。

1# 判断整行是否有重复值,如果运行结果为True,表明有重复值

2# print(any(csv_df.duplicated()))

3# 显示True,表明有重复值,进一步提取出重复值数量

4data_duplicated = csv_df.duplicated().value_counts()

5# print(data_duplicated)

6#运行结果

7# True

8# False

9# 6562

10# True

11# 12

12# dtype: int64

13# 删除重复值

14data = csv_df.drop_duplicates(keep='first')

15# 删除部分行后,index中断,需重新设置index

16data = data.reset_index(drop=True)

然后,我们再增加两列数据,一列是文章标题长度列,一列是年份列,便于后面进行分析。

1#增加标题长度列和年份列

2data['title_length'] = data['title'].apply(len)

3data['year'] = data['date'].dt.year

以上,就完成了基本的数据清洗处理过程,针对这些数据可以开始进行分析了。

4. 描述性数据分析

通常,数据分析主要分为四类: 「描述型分析」、「诊断型分析」「预测型分析」「规范型分析」。「描述型分析」是用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法,是这四类中最为常见的数据分析类型。通过统计处理可以简洁地用几个统计值来表示一组数据地集中性(如平均值、中位数和众数等)和离散型(反映数据的波动性大小,如方差、标准差等)。

这里,我们主要进行描述性分析,数据主要为数值型数据(包括离散型变量和连续型变量)和文本数据。

4.1. 总体情况


3901436-29845cf78d7052f5.png

先来看一下总体情况,使用了data.describe() 方法对数值型变量进行统计分析。

mean 表示平均值,std表示标准差,从上面可以简要得出以下几个结论:

产品经理热爱学习,看到好的文章就收藏下来。75%的文章收藏量破百,50%的文章浏览量破百;

产品话少,对别人的文章很少会评头论足。文章的评论数都寥寥无几。

产品不愿意承认别人比自己优秀。绝大部分文章点赞数都是一二十个,所以程序猿们以后不要在产品面前吹嘘技术如何了得了,产品是不会承认你厉害的。

对于非数值型变量(author、date),使用 describe() 方法会产生另外一种汇总统计。

1print(data['author'].describe())

2print(data['date'].describe())

3#结果

4count6562

5unique1531

6top       Nairo

7freq315

8Name: author, dtype: object

9count6562

10unique1827

11top2015-01-2900:00:00

12freq16

13first2012-11-2500:00:00

14last2019-01-2100:00:00

15Name: date, dtype: object

unique 表示唯一值数量,top 表示出现次数最多的变量,freq 表示该变量出现的次数,所以可以简单得出以下几个结论:

一共有1531位作者为社区的产品经理栏目贡献了文章,其中贡献量最大的作者叫 Nairo,贡献了315篇;

在2015年1月29日栏目文章发布数最大,达到了16篇。栏目第一篇文章发布在2012年11月25日。

4.2. 不同时期文章发布的数量变化

3901436-a58a26e3672fd8a0

从图中可以看到,网站文章发布数量在2012到2015年逐年递增,增幅很大,这可能与网站的知名度提高有关;2015年2季度之后比较平稳。后面的分析代码就不一一贴出,文末会留下代码下载链接。

4.3. 文章浏览量 TOP10

接下来,到了我们比较关心的问题:几万篇文章里,到底哪些文章写得比较好或者比较火

3901436-c7730ce19e0323b7

这里以阅读量作为衡量标准,排在第一的是《 小白产品经理看产品:什么是互联网产品》,第一名的浏览量遥遥领先于第二名,接近百万,看来很多社区里面很多都是产品小白。而且看这几篇文章标题,貌似都是介绍什么是产品经理,产品经理干什么,看来社区里面初级产品挺多的。

4.4. 历年文章收藏量 TOP3

在了解文章的总体排名之后,我们来看看历年的文章排名是怎样的。这里,每年选取了收藏量最多的 3 篇文章。

3901436-6e5a7b6eb8101ae8
3901436-a79438f62e19246c

从图中可以看出,2015年是的那篇文章收藏量是最多的,达到了2000,文章内容则是后台产品设计,看来这篇文章里面干货满满。

4.4.1. 最高产作者 TOP20

上面,我们从收藏量指标进行了分析,下面,我们关注一下发布文章的作者。前面提到发文最多的是Nairo,贡献了315篇,这里我们看看还有哪些比较高产的作者。

3901436-12bd41a5ba23ad29

可以看到第一名遥遥领先,是个狼人,大家可以关注一下这些优质作者。

4.4.2. 平均文章收藏量最多作者 TOP 10

我们关注一个作者除了是因为文章高产以外,可能更看重的是其文章水准。这里我们选择「文章平均收藏量」(总收藏量/文章数)这个指标,来看看文章水准比较高的作者是哪些人。这里,为了避免出现「某作者只写了一篇高收藏率的文章」这种不能代表其真实水准的情况,我们将筛选范围定在至少发布过 5 篇文章的作者们。

3901436-bd87f759ecbe91ca

对比这张图和前面的发文数量排行榜,我们可以发现这张图的作者均没有上榜,相比于数量,质量可能更重要吧。

4.5. 文章评论数最多 TOP10

说完了收藏量。下面,我们再来看看评论数量最多的文章是哪些。

3901436-9d00a171dc57981a

我们可以看到大部分都与初级产品有关,而且我们可以看到评论多,收藏量也挺多的,我们进一步探寻两者之间关系。

3901436-ebed4a67f71d19e3

我们可以发现绝大部分文章评论数和收藏量都很小。

4.6. 文章标题长度

下面,我们再来看看文章标题的长度和阅读量之间有没有什么关系。

3901436-d5df75875bb689ec

我们可以看到文章标题长度在20左右时阅读量普遍较高。

4.7. 文本分析

最后,我们从这 5 万篇文章中的正文内容中看看产品经理都在看什么。

3901436-4a9193a5d13174dd

我们可以看到设计、工作、数据、功能、需求、项目等都是产品经理们关注的东西,产品们也很辛苦啊,程序猿以后不要吐槽自己多辛苦了。

5. 小结

本文简要分析了人人都是产品经理产品经理栏目下6574篇文章信息,大致了解了产品经理都在看什么。

发掘了那些优秀的文章和作者,能够产品新人指明方向。

告诉了程序猿与产品经理聊天时该说什么。

本文尚未做深入的文本挖掘,而文本挖掘可能比数据挖掘涵盖的信息量更大,更有价值。进行这些分析需要机器学习和深度学习的知识。

本文源代码及词库公众号回复 产品 即可获取。

参考资料:

搜狗细胞词库;

写文章不会起标题?爬取虎嗅5万篇文章告诉你(公众号:第2大脑);

     文章部分图片来自网络,如不慎侵权请联系删除。

Python的爱好者社区历史文章大合集

2018年Python爱好者社区历史文章合集(作者篇)

福利:文末扫码关注公众号,“Python爱好者社区”,开始学习Python课程:

3901436-75e729fdaa016d73

关注后在公众号内回复“ 课程 ”即可获取:

小编的转行入职数据科学(数据分析挖掘/机器学习方向)【最新免费】

小编的Python的入门免费视频课程

小编的Python的快速上手matplotlib可视化库!

崔老师爬虫实战案例免费学习视频。

陈老师数据分析报告扩展制作免费学习视频。

玩转大数据分析!Spark2.X + Python精华实战课程免费学习视频。

3901436-50741ecc70bf6cd4
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值