python 会计师事务所_CPA备考经验及学习方法(精华浓缩版)|| 用python从知乎721个回答9万多个赞中提取出的...

大家好,我是刀哥。

在距离今年注册会计师考试还有三个月左右的时间里,很多已报考注会的小伙伴们已开启了备考之旅,有些小伙伴已有了往年的备考经验,有些小伙伴今年是第一次考,尚无相关经验。

无论是往年已备考过还是今年第一次考,小伙伴们在学习过程中,都期望能得到过来人的经验指点,希望能获得有用的备考经验和值得借鉴的学习方法,以帮助自己在注会考试中少走弯路尽早上岸。

刀哥作为过来人之一,曾在往期的推文中也介绍过自己的备考经验,以及对注会备考是选择全职考还是在职考等一些问题上提出过自己的看法和建议。

同时,在知乎上关于注会备考的经验分享帖也特别多,很多考神学霸呕心沥血长篇撰文将自己的学习方法和经验心得倾囊相送,得到了很多小伙伴们的点赞。

今天刀哥就借助python将知乎上关于此类问题的所有回答全部爬取了下来,筛选出点赞数靠前的优秀回答,并从优秀回答中摘取出精华部分分享给小伙伴们,希望将回答内容的重点提供给大家,为大家省下自己搜索询问的时间,以将更多精力投入到复习备考中去。

爬取知乎所有回答

由于知乎上关于注会备考经验及学习方法的问题比较多,回答得也比较分散,没有形成一个特别集中热门的话题,并且有些回答在多个类似问题下重复出现,故刀哥挑选了该类似问题下回答数量最多的一个问题对其进行了爬取。

截至刀哥爬取时,该问题下已有721个回答,刀哥需先获得该问题下的回答总数量,即取得“721”这个数据,以作为下一步结束爬取动作的已知条件,其爬取代码如下。

1url = 'https://www.zhihu.com/api/v4/questions/19637333/answers'

2params = {

3 'include': 'data[*].is_normal,admin_closed_comment,reward_info,is_collapsed,annotation_action,annotation_detail,collapse_reason,is_sticky,collapsed_by,suggest_edit,comment_count,can_comment,content,editable_content,voteup_count,reshipment_settings,comment_permission,created_time,updated_time,review_info,relevant_info,question,excerpt,relationship.is_authorized,is_author,voting,is_thanked,is_nothelp,is_labeled,is_recognized,paid_info,paid_info_content;data[*].mark_infos[*].url;data[*].author.follower_count,badge[*].topics',

4 'limit': '5',

5 'offset': '5',

6 'platform': 'desktop',

7 'sort_by': 'default'

8 }

9headers = {

10 'referer': 'https://www.zhihu.com/question/19637333',

11 'user-agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'

12 }

13

14res_zh = requests.get(url,headers=headers,params=params)

15js_zh = json.loads(res_zh.text)

16total_answer = js_zh['paging']['totals']

17print(total_answer)

获得回答总数量后,再爬取这721个回答下每一个回答的信息,包括回答者的昵称、性别、类型、个性签名、关注TA的人数、该回答的评论数、点赞数以及回答的具体内容,爬取后分别以TXT及EXCEL格式保持到本地电脑上,代码如下。

1for x in range(0,int(total_answer/5)+2): #结束爬取控制器

2 time.sleep(6) #控制爬取速度,避免知乎反爬

3 print(x*5)

4 url = 'https://www.zhihu.com/api/v4/questions/19637333/answers'

5 params = {

6 'include': 'data[*].is_normal,admin_closed_comment,reward_info,is_collapsed,annotation_action,annotation_detail,collapse_reason,is_sticky,collapsed_by,suggest_edit,comment_count,can_comment,content,editable_content,voteup_count,reshipment_settings,comment_permission,created_time,updated_time,review_info,relevant_info,question,excerpt,relationship.is_authorized,is_author,voting,is_thanked,is_nothelp,is_labeled,is_recognized,paid_info,paid_info_content;data[*].mark_infos[*].url;data[*].author.follower_count,badge[*].topics',

7 'limit': '5',

8 'offset': str(x*5),

9 'platform': 'desktop',

10 'sort_by': 'default'

11 }

12 headers = {

13 'referer': 'https://www.zhihu.com/question/19637333',

14 'user-agent': 'Mozilla/5.0 (Macintosh; U; PPC Mac OS X 10.5; en-US; rv:1.9.2.15) Gecko/20110303 Firefox/3.6.15'

15 }

16

17 res_zh = requests.get(url,headers=headers,params=params)

18 js_zh = json.loads(res_zh.text)

19 for i in js_zh['data']:

20 name = i['author']['name'] #用户昵称

21 gender = i['author']['gender'] #用户性别

22 user_id = i['author']['id'] #用户ID

23 user_type = i['author']['user_type'] #用户类型

24 headline = i['author']['headline'] #个性签名

25 follower_count = i['author']['follower_count'] #关注人数

26 comment_count = i['comment_count'] #评论数

27 voteup_count = i['voteup_count'] #赞同数

28 content = i['excerpt'] #回答内容

29 sheet.append([name,gender,user_id,user_type,headline,follower_count,comment_count,voteup_count,content])

30 with open('e:\Python\zhihu_answer.txt','a',encoding='utf-8') as f:

31 f.write(content)

32wb.save('e:\Python\zhihu_answer.xlsx')

33

经过爬取,本地文件夹下生成如下两个文件。

TXT文件,用于词频统计及制作词云图

EXCEL文件,用于筛选查找及提取单元格内容

2.

所有回答内容词云展示

每位回答者提出的备考经验及学习方法,有不同的地方,也有相同之处,那他们总结出的经验和学习方法有哪些是相似的,有哪些备考观点是他们都认可的,有哪些词汇内容被他们多次提及呢,于是刀哥进行了词频统计,代码如下。

1#文本分词

2seg_list_exact = jieba.cut(comment_text) #精确模式分词

3object_list = []

4remove_words = [u'会计', u'审计',u'经济法', u'税法', u'财管', u'财务成本管理', u'战略',u'公司战略',u'公司战略与风险管理',u'图片',u'注会',u'考试',u'备考',u'cpa',u'CPA',u' '] # 自定义去除词库

5

6for word in seg_list_exact: # 循环读出每个分词

7 if len(word)!= 1: #如果分词长度不为1

8 if word not in remove_words: # 如果不在去除词库中

9 object_list.append(word) # 分词追加到列表

10

11#词频统计

12word_counts = collections.Counter(object_list) # 对分词做词频统计

13word_counts_top50 = word_counts.most_common(50) # 获取前50最高频的词

14print(word_counts_top50) # 输出检查

词汇次数显示如下。

1[('自己', 494), ('时间', 476), ('通过', 418), ('学习', 387), ('经验', 359), ('复习', 319), ('专业', 302), ('基础', 276), ('可以', 271), ('一个', 260), ('阶段', 259), ('没有', 230), ('开始', 222), ('大家', 222), ('科目', 211), ('一下', 198), ('就是', 194), ('综合', 189), ('但是', 184), ('所以

2', 182), ('教材', 175), ('老师', 170), ('需要', 169), ('时候', 169), ('分享', 166), ('还是', 161), ('很多', 159), ('因为', 154), ('这个', 148), ('工作', 146), ('一定', 144), ('准备', 138), ('方法', 135), ('觉得', 133), ('会计师', 132), ('不是', 125), ('如果', 125), ('注册', 120), ('今年', 119), ('建议', 119), ('一年', 118), ('什么', 114), ('不要', 113), ('比较', 112), ('最后', 108), ('希望', 107), ('一些', 107), ('报考', 106), ('其实', 106), ('回答', 106)]

制作词云图的代码在往期推文中已给出过,直接展示词云图如下。

3.

提取高赞回答内容

该问题下721个回答共9万多个赞,按照点赞数排序如下。

从上可以看出,点赞量靠前的优秀回答均为个人回答者,且前10位点赞量占总点赞量的比例约为73%,前3位点赞量占总点赞量的比例也高达49%,故刀哥对点赞量最高的前3位回答的精华内容进行了提取。

1. 以下内容提取自知乎@二氧化牛,版权属于@二氧化牛,侵删

六科都是一个套路:网课一套、资料两套(轻松过关一+轻松过关四)、错题笔记本一个(手写,不要用云笔记)。

认真复习后实际通过率较高,但坚持认真复习完的人少;知识点在广不在深,偏题怪题极少;无法押题,不要买其他人的笔记;新增内容考的概率大;官方教材可不看;不必担心出题组心理变态,出变态题;考试做不完很正常,确保会做的能拿到分。

复习建议采用“四轮复习法”:

第一轮,基础知识轮;

第二轮,做题攻坚轮;

第三轮,错题巩固轮;

第四轮,模拟考试轮。

备考经验分享:

摆正心态,有吃苦的决心,这是一段痛苦的旅程;

记录自己的每一次复习情况,这些记录累积到一定的数量,会无形的帮助提升复习效率——也许是“都学了这么久,放弃了多可惜”的心态;

尽量连续学习,千万不要学几天玩几天,这样很容易把前面学的东西就忘了;

上下班的时间不要浪费,可以把网课放到手机里去听;

不要迷信老师可以让你过;

自制力太差,可以找人结伴复习;

复习的过程中碰到问题肯定会心情郁结,但不要对亲人发脾气;

错题笔记本一定一定要坚持记,这里记录了你所有的薄弱点。

2.以下内容提取自知乎@张玉冰,版权属于@张玉冰,侵删

关于复习时间:我认为比较准确的答案就是1500个小时有效的学习时间吧,粗略的就是真正复习的只用了四个月左右。1500个小时应该是比较合理的时间。

关于复习资料:其实大家都差不多,都是一些经典组合:网校录音+讲义+教材+轻一+最后六套题。

关于总体复习方法:我采用的是逐个攻破,循环反复的方法。我按照会计、税法、审计、财管、风管、经济法这样逐科进行复习,复习完了一科后才进行下一科复习。逐个攻破后,就是循环反复。我一共进行了四轮的复习。第一轮复习是全面细致的复习,目的是了解全面弄懂每一个知识点。后面几轮都是加强记忆和增加熟练程度。

CPA六门是一个长期的战役,如果有什么秘诀,那么它就是坚持、再坚持。

3. 以下内容提取自知乎@milkcold,版权属于@milkcold,侵删

做好长线作战的心理准备。告诉亲友、对象,最近需要闭关复习,谢绝所有娱乐、社交活动(只是声明而已)。

根据科目内容制定总体复习计划,确定milestone,何时完成第一遍学习、何时做完第一遍习题,每个阶段需要完成的复习内容包括哪些、等等。

根据复习计划,调整作息时间,无论是在职还是学生,都应当明确各个复习阶段的生活作息。尽可能在一个时间段保持一致的学习时间段。充分利用整段的复习时间,更要利用碎片时间复习。

建议一门课程只听一个老师的一整套课,即同一个老师的基础班、习题班、专题班、串讲班。

学第一遍的时候,一定要坚持,内容多、时间长、难度高是CPA考试的特点,但是好的开始就是成功的一半。

听专题班,对整本书的内容形成整体和具体的理解。然后跟着各个专题,把轻一的剩余的题目做完。

习题班,一般都是往年真题和经典例题。建议直接下载讲义,在电脑上做讲义里的题,实在看不懂的再看看讲解或者听听老师的课件。

在考前一周的周末,在自己考试的科目实际考试时间进行模拟测试,使用注协提供的考试模拟系统。

以上是提取自知乎回答的精华部分,由于有些小伙伴还想看到更完整的内容,刀哥也将其整理在了PDF文件上,需要的小伙伴si我~:注会经验

任何人的备考经验和学习方法,只有适合自己的才值得借鉴和学习,最终主要是靠自己,祝小伙伴们都能顺利通过考试。

若觉得此文不错,请点个喜欢或赞同,欢迎来交流。关于刀哥:一个会写代码的注册会计师,请关注我,看用代码能把财会玩出什么新花样!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值