【数据分析46讲】基础篇

你为什么需要数据分析能力

1.如何从海量的数据中找到关联关系,以及如何进行价值挖掘

数据分析全景图及修炼指南

1.数据分析的三个部分

  • 数据采集,可以使用八爪鱼,也可以自己写爬虫
  • 数据挖掘,Weka(一个免费的数据挖掘工作平台)
  • 数据可视化,Matplotlib等工具
    在这里插入图片描述

学习数据挖掘的最佳路径是什么

1.数据挖掘工作,就好像钻井一样,通过分析数据,从庞大的数据中发现规律,找到宝藏
2.数据挖掘的十大经典算法

  • 分类算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CART
  • 聚类算法:K-Means,EM
  • 关联分析:Apriori
  • 连接分析:PageRank
    3.数据挖掘的数学原理
  • 概率论与数理统计
  • 线性代数
  • 图论
  • 最优化方法

Python基础语法:开始你的Python之旅

1.在数据科学领域,Python 有许多非常著名的工具库:比如科学计算工具 NumPy 和 Pandas 库,深度学习工具 Keras 和 TensorFlow,以及机器学习工具 Scikit-learn,使用率都非常高

Python科学计算:用NumPy快速处理数据

1.它不仅是 Python 中使用最多的第三方库,而且还是 SciPy、Pandas 等数据科学的基础库
2.Numpy比Python原生结构节约了内存和计算时间,NumPy 和标准 Python 最大的区别在于 NumPy 中重新对数组进行了定义,同时提供了算术和统计运算,你也可以使用 NumPy 自带的排序功能,一句话就搞定各种排序算法
3.避免采用隐式拷贝,而是采用就地操作的方式。举个例子,如果我想让一个数值 x 是原来的两倍,可以直接写成 x*=2,而不要写成 y=x*2
4.在 NumPy 里有两个重要的对象

  • ndarray解决了多维数组问题
  • ufunc则是解决对数组进行处理的函数

5.ndarray

  • 含义就是多维数组,在Numpy中,维数叫轶,一维数组的轶是1
  • 每一个线性数组又是一个轴,其实轶就是描绘轴的数量
  • 常用函数
    • 函数 shape 属性获得数组的大小
    • 通过 dtype 获得元素的属性
  • NumPy里面也可以有类似JAVA对象的结构数组,通过dtype定义

6.ufunc

  • 主要是用来运算,而且计算很快
  • 常用函数
    • 两个数组之间的加、减、乘、除、求 n 次方和取余数
    • 数据中的最大值、最小值、平均值,是否符合正态分布,方差、标准差多少,我们也可以指定行或列来统计

7.NumPy排序

  • Numpy的sort函数可以直接排序
  • 默认是快速排序

<

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值