每日一问
Datawhale
一个开源的学习组织
展开
-
如何去实践一个完整的数据挖掘项目?
【每日一问】什么是KNN算法,它的优缺点是什么?k近邻算法找出k个与测试数据最相近的k个训练数据,对分类则取其预测标签就是k个训练数据中出现最多的分类。算法过程:计算测试样本与每个训练样本距离;排序并选择前k个训练样本;确定前k个训练样本中各个类别的出现频率,并返回频率最高的分类作为预测分类优点:理论成熟,思想简单,既可以用来做分类又可以做回归可以用于非线性分类训练...原创 2019-02-14 21:18:00 · 6805 阅读 · 0 评论 -
优秀的数据分析师应该具备哪些技能和特质?
1.【每日一问】数据分析师在企业中的价值是什么?优秀的数据分析师应该具备哪些技能和特质?优秀回答价值:根据当前数据,对比历史数据,结合市场规律对具体业务问题进行纠正,指导以及预测。技能:数据驱动,发现问题,解决问题。普通企业基本excel就能完成90%的数据分析工作,更多的是需要对业务的精通;互联网企业数据库操作能力是基本,R或者Python必会一项,但一般以Python居多,要求更高一...原创 2019-02-07 19:48:12 · 2626 阅读 · 0 评论 -
Python的常用包有哪些,分别有什么作用?
【每日一问】Python的常用包有哪些,分别有什么作用?来自Datawhale优秀回答者:追风者Python常用包1、Numpy(数值运算库)2、Scipy(科学计算库)3、Matplotlib(基础可视化库)4、Pandas(数据处理库)5、Seaborn(高级可视化库)6、Scikit-learn(流行的机器学习库)各自作用1、Numpy是最为流行的机器学习和数据科学包...原创 2019-02-21 23:47:30 · 20751 阅读 · 3 评论 -
如何阅读英文文献,有哪些高效的方法或者辅助工具?
【每日一问】如何阅读英文文献,有哪些高效的方法或者辅助工具?Datawhale优秀回答者:追风者方法先是通读文献综述(理解专业术语和基本概念),起初时应以泛读为主;再研读自己研究领域的经典论文50篇+;确定研究方向之后,要以精读为主,要做到边读文献边做笔记,尤其是在文献中遇到的疑惑点(可以查看参考文献)做出Hightlight标记,因为这些疑惑点将是我们后期主要关注的对象;每周抽出1-2...原创 2019-03-01 16:38:12 · 10733 阅读 · 0 评论 -
面试官比较看重简历中的哪些维度,有什么写简历的技巧、建议和总结?
【每日一问】面试官比较看重简历中的哪些维度,有什么写简历的技巧、建议和总结?Datawhale优秀回答者:千夜同学,陶志杰第一 ,简历一定要工整 字体格式对奇 字体大小不一 格式错乱 文字乱码的 都懒得看 直接垃圾桶(千万别模版导出)第二 ,一定要有"卖点" 就是所谓的项目经验 但是"课程表、图书管理系统"这种作业级别的项目少写,只会突出你没能力第三 ,阅读的过程是从上而下的,蓝桥杯 xx...原创 2019-03-14 22:41:45 · 1824 阅读 · 0 评论 -
谈谈你对集成学习的见解与认识,描述一下它们的优势所在?
【每日一问】谈谈你对集成学习的见解与认识,描述一下它们的优势所在?Datawhale优秀回答者:HipHopMan集成方法有很多种,一种叫做bagging,bagging的思想是,我把我的数据做一点微小的调整,就得到了一个跟原来不一样的数据集,我就能多训练一个模型出来,模型的数量多了,解释力自然就增强了。比如说我原来有100个人的数据,其中有两个分别叫Tony和Lily,我把Tony这条数据删...原创 2019-03-22 00:35:06 · 3980 阅读 · 0 评论 -
当我们拿到数据进行建模时,如何选择更合适的算法?
【每日一问】当我们拿到数据进行建模时,如何选择更合适的算法?Datawhale优秀回答者:mashagua,金小楗目标导向机器学习1.先看是分类问题还是回归问题(分类就先从常用的分类模型里选择)2.其次,看数据特征的数据类型,然后做一些初步的数据统计,比如是否数据均衡,大致的数据分布是怎样的(不同类别的分布)3.然后判断用哪个比较合适一些,是树模型还是其他的分类模型。4.最后查看...原创 2019-03-07 18:12:39 · 7807 阅读 · 0 评论