【知识学习】如何零基础入门数据分析

1. 基本工具

学习数据分析的第一步,是了解相关工具

Excel

excel至是最基础的数据分析工具,至今还是非常有效的,原因是它便于使用,受众范围极广,且分析结果清晰可见。

相信大多数人都有使用excel的基本经验,不需要根据教材去学习了。重点掌握:基本操作的快捷键;函数:计算函数、if类、字符串函数、查找类(vlookup和match),一定要熟悉函数功能的绝对和相对引用; 数据透视表功能等。另外,excel可以导入一些模块来使用,典型的包括数据分析模块,作假设检验常用;规划求解,作线性规划和决策等问题非常有效。利用这些模块可以获得很不错的分析报告,简单且高效。

SQL

数据分析的绝对核心!大部分数据分析工作都是对数据框进行的,在这个过程中,需要不断的根据已有变量生成新变量、过滤掉一些样本还有转换level。SQL的设计就是为了解决这些问题。其他常用的数据操作工具,包括R语言的数据框、Python里的pandas,基本都是借鉴了SQL的思想,一通百通。

SQL入门容易,它的语法极其简单,基本可以说上过一门相关的课或看过一本相关的书就可以了解大概,但融会贯通并能够进行各种逻辑复杂的操作,就需要长时间的锤炼了。

SQL的学习建议,随便找一本书或者网课就好,因为主流的课程基本都是一个思路:先讲SELECT、WHERE、GROUP BY(配合简单的聚合函数)、ORDER BY这类单表操作,之后讲JOIN进行多表连接。除此之外,必会的基本技能还应该包括WINDOW FUNCTION和CASE WHEN等等。学了基本的内容之后,就是找项目多练,不断提升。

R/Python

熟练SQL之后,对数据操作方面的内容就得心应手了。接下来更复杂的问题,如搜索和建模,则需要使用编程语言。

R vs Python

目前最主流的数据分析编程语言就是R和Python,网上遍是关于这两者的争论,有兴趣的可以简单看一下,但不用陷入过度的纠结。我个人的经验来看,熟练两者其中的任何一个都可以胜任数据分析中的大部分工作,不存在某一个语言有明显缺陷的情况。

这里不想大篇幅的比较两者,但是想简单的说一下两者的侧重点:

R语言是为了解决统计问题而设计的,因此它有一个很人性化的地方:最大程度的简化语言,从而让分析人员忽略编程内容,直面数据分析。也因为是统计语言,很多基本的统计分析内容在R里都是内置函数,调用十分便捷。此外,R的报告能力很强,大部分模型库在训练模型后都会提供很多细节,也比较容易通过rmd转换成优美的doc/pdf/html。

Python先是一门general的编程语言,之后才是数据分析工具。初学python,语法肯定是不如R容易理解的。但使用到后来,当越来越多的需要自己定义时,Python的优势就显现出来了。另外,Python在数据量大时速度会比较快。

至于先学哪一个,需要结合自己的规划来看:如果最终两个都要学,那我毫不犹豫的建议从R开始;如果两个选一个学的话,我目前倾向于Python,不过如果你确定自己以后只做业务方面的内容,那R可能更好一些。另外,如果有专注的领域的话,那么要结合自己的领域来定,比如搞投资分析的可以看一看R语言的PortfolioAnalytics库,大概就明白,说R语言把编程简化专注结果所言非虚。

R语言学习

当然无论入门哪种语言,学习路径都很重要。R语言的学习建议从基础数据结构开始,了解R中的vector、dataframe和list等结构,对语法有基本的理解。之后建议学习dplyr和ggplot2这两个库,两者分别是数据操纵和可视化库,学过之后可以做一些基本的数据项目了。学习平台首推datacamp,是付费的但绝对物有所值,没有比边学边练更好的学习方式了。此外推荐一本R语言实战(R in Action),可以当作学习手册。

Python学习

包括我在内的很多同学都把Coursera上的Python for everyone当作启蒙教材,这是一门很好的课程,但对于专注数据分析的Python使用者而言,课程没有提供最完美的学习路径。学习Python也应该从数据结构开始,list、dictionary、tuple这些数据结构要了解。之后建议学习numpy、pandas和matplotlib,分别是矩阵库、数据框库和可视化库,基本就算是入门了。学习Python,Datacamp依然是个很不错的平台,但是资源不如R丰富。首推一本叫《利用python进行数据分析》(Python for data analysis)的教材,直接传授数据分析最需要的编程技能,熟悉书中的知识基本就可以说学会Python数据分析的基本操作了。

2. 描述性分析和统计基础

了解基本工具之后,还要拥有相关的知识才能正式开始数据分析。分析的基础是统计知识,相信大部分人都学过概率和统计相关的课程,自己基础是否够扎实,可以考一考自己:均值/标准差/相关性等指标,各种探索性分析场景用哪种可视化方法比较好,抽样分布/置信区间/假设检验,贝叶斯理论等。在这些相关内容没有彻底熟练之前,建议不要认为自己基础已经足够扎实了,这些内容都是值得反复学习的。另外,可以结合数据分析工具来学习,比如用R或Python进行双均值假设检验(当然这里是手写而不是调用函数),对理解编程和理解统计都有帮助。

这里推荐《深入浅出统计学》和《深入浅出数据分析》两本书,可以作为入门,也可以作为复习,当然如果统计背景比较深,没必要看了,太基础了。也推荐Coursera杜克大学的Statistics with R,前三门课质量都比较高,需要有R的基本知识,可以边学统计边练R。

描述性分析真的很重要,这里需要再强调一下。如果真的想做数据分析,尤其是业务导向的数据分析,建议一定要重视这部分。平时做项目也是一样的,拿到数据后先彻底的理解数据,不要急着往模型里放。

3. 机器学习

终于到了机器学习,我猜对于很多数据分析学习者,机器学习是本质目的。机器学习是有不同种学法的:对于业务数据分析者,了解各类模型的使用场景、优劣势,基本就足够了;对于偏数据科学和挖掘的人员来说,要深入理解每一种模型,至少得写出推导步骤;更深入的算法导向人员,还要有从头实现算法的能力。这篇文章的目标读者主要是第一类和第二类。

学习机器学习模型可以从理解模型和实现两个方向入手,目前主流的实现工具还是R和Python。Datacamp上有很多用R和Python进行机器学习的课程,看了之后基本可以了解机器学习模型在做什么,平时的应用场景大概怎样。流行的模型一定要理解,像逻辑回、支持向量机(核函数)、k邻近、朴素贝叶斯、集成学习模型(随机森林和各类boosting)都是很常用的模型;bias-variance tradeoff、标准化、正则化、交叉检验、重采样,这些概念也要了解。

如果想进一步深入的去理解模型细节,那么微积分和线性代数是必要的先修课,否则无法继续进行了。当然如果决定进一步学习细节,需要看更多的教材,上一些相关课程。

网上的相关课有很多,目前最火爆的肯定是Coursera Andrew Ng的机器学习。这门课也是我的入门课,确切的说我第一次学这门课的时候,甚至还不会调包,也不太会编程,就跟着一步一步做,很艰难的完成了作业。做到神经网络那部分,当时实在写不出来,去网上找答案看。到现在,这门课我应该看过有五遍了,基本上每隔几个月重新看一下都有新的收获。

Coursera还有另一系列的机器学习课来自华盛顿大学,质量也很高,课程用Python(缺陷是使用的库不是pandas和sklearn,而是授课者自己开发的库),很大一部分内容是手写模型,很有助于打好基础。此外,因为这是一系列课,所以覆盖范围要比Andrew Ng的课广一些,回归问题、分类问题、非监督问题,都单独成为一门课程。

很多机器学习的教材写的也不错,比如An Introduction to Statistical Learning(ISL)和Machine Learning with R,两者都是讲模型的数学推导,并用R语言实现。

机器学习确实是很深奥的东西,如果时间允许建议经典的课程和教材都看一看,有的课甚至可以多看几遍。

4. 更进一步

如果以上内容都比较扎实的完成,可以说能够进行大部分项目了,也对数据分析有着很成体系的理解。之后可以结合自己的需求,深入学习更多的内容,或者结合实际项目练习。尝试着找一些完整的项目去做,比如说kaggle就是很不错的平台,会提供数据集进行使用。kaggle的入门赛也做的很好,简单易懂,让新人不会太迷茫。

如果有额外兴趣的话,还是有很多更深奥的东西值得学习的,比如深度学习范围的内容或者大数据的相关技术等。

5. 结尾的话

很多人在入门数据分析时候都会问:我从零开始,多久能学会机器学习?其实取决于你怎么理解会,如果从头学python,到能使用sklearn调出机器学习模型,大概一个月就完成了。但深入的去理解以上内容,确实不是一年半载能完成的。

我见过很多人追求速成,也确实速成了。遇到项目基本就是把数据导进来,不做特征处理,然后调出各种模型(其中不乏像神经网络和boosting这种比较高级的模型),每个用默认参数试一次,看看效果。然而数据分析没那么简单,也没那么fancy。做一个项目,80%的时间都在准备,涉及到许多数据清理和操作,其中的一些东西是任何教材和课程都无法传授的。

还是更建议一步一个脚印的去学习,边学边做、边学边想,记好学习笔记,并定期总结学习心得。打好基础不可急于求成,才是学习的最好途径。

   知道你对python数据分析感兴趣,所以给你准备了下面的资料~

 这份完整版的Python全套学习资料已经上传,朋友们如果需要可以点击链接免费领取或者滑到最后扫描二v码【保证100%免费

python学习资源免费分享,保证100%免费!!!

需要的话可以点击这里👉Python学习路线(2023修正版)附涉及资料 (安全链接,放心点击)

文末有福利领取哦~ 

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。在这里插入图片描述​​​

二、Python必备开发工具

在这里插入图片描述​​​

三、精品Python学习书籍

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。​​

四、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述​​​
在这里插入图片描述​​​

五、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述​​​

六、Python练习题

检查学习结果。
在这里插入图片描述​​​

七、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
在这里插入图片描述​​​
在这里插入图片描述​​​

 👉

  这份完整版的Python全套学习资料已经上传CSDN,朋友们如果需要也可以扫描下方csdn官方二维码领取【保证100%免费】CSDN2024开年大礼包:《python学习路线&全套学习资料》免费分享

请添加图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 深度学习是一种通过算法模拟人类神经系统中神经元之间的连接,进行复杂的数据处理和分析的技术。深度学习广泛应用于图像识别,自然语言处理,语音识别,推荐系统等领域,已经成为人工智能技术的重要分支。 对于零基础入门深度学习,我们需要首先学习编程基础,包括Python语言,numpy数库,以及机器学习中常用的一些算法和常用框架,如TensorFlow,PyTorch等。学习以上基础知识将会对深度学习入门有很大帮助。 其次,需要学习深度学习的核心算法,如神经网络,卷积神经网络,循环神经网络等。这些算法不仅需要掌握其数原理,还要了解其实现方式和具体用法。 最后,实践是学习深度学习的最佳方式。需要通过一些具体的项目来锻炼自己的技能。可以从一些公开数据集入手,如MNIST手写数字识别集,IMDB电影评论情感分析等,逐步进行深度学习实践。 零基础入门深度学习是一个较为困难的过程,需要付出较为大的努力。但是深度学习的应用前景广阔,学习深度学习能够提升个人的核心竞争力,提高职业发展空间。 ### 回答2: 深度学习是人工智能领域中非常热门的一个研究方向。作为一名零基础入门者,想要学习深度学习,首先需要获得一定的数知识基础,比如线性代数、微积分等,同时还需要了解一些相关的编程技能,例如Python编程语言、机器学习算法等。 在网上可以找到很多深度学习学习资料,其中比较优秀的就是csdn网站上的相关视频教程。这些教程针对零基础学习者贴合入门需求,用简明易懂的语言介绍了深度学习基础概念、原理和常见应用等。通过学习这些教程,入门者可以了解神经网络、卷积神经网络、递归神经网络等深度学习基础框架和模型,并学习如何应用这些模型进行图像识别、语音识别、自然语言处理等任务。此外,这些教程还可帮助入门者掌握TensorFlow、PyTorch、Keras等深度学习框架的使用方法,从而搭建自己的深度学习模型项目。 总之,零基础入门深度学习,可以通过csdn等相关教程网站进行学习。在学习过程中,需要耐心学习,同时结合实际应用场景,进行实践练习,才能更好地理解深度学习并掌握它。 ### 回答3: 深度学习是机器学习领域中活跃的分支,其基于神经网络模型实现的算法已经应用于许多领域中,如计算机视觉、语音识别、自然语言处理等等。但是,对于零基础入门者来说,深度学习是一个相对较难的门槛。在这种情况下,可以从 CSND 的深度学习入门教程开始学习。 该教程以TensorFlow为基础,依次介绍深度学习基础知识、TensorFlow的基础操作、神经网络的实现等方面。同时,它的学习过程采用了一定的例子,即用一些经典的案例来介绍深度学习的方法和技巧,这些案例包括手写数字识别、图像分类、语音识别和自然语言处理等领域;这种方式可以让初者更加容易理解和上手深度学习。 当学习者完成该教程后,不仅可以获得深度学习基础知识,还可以了解国内 当前来的深度学习的最新发展,并且能够进行简单的深度学习应用实践。因此,对于那些对深度学习感兴趣的零基础入门者来说,该教程是一个非常不错的选择。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值