文章目录
-
-
- 你为什么需要数据分析能力
- 数据分析全景图及修炼指南
- 学习数据挖掘的最佳路径是什么
- Python基础语法:开始你的Python之旅
- Python科学计算:用NumPy快速处理数据
- Python科学计算:Pandas
- 学数据分析要掌握哪些基本概念?
- 用户画像:标签化就是数据的抽象能力
- 数据采集:如何自动化采集数据
- 数据采集:如何用八爪鱼采集微博上的“D&G”评论
- Python爬虫:如何自动化下载王祖贤海报?
- 数据科学家80%时间都花费在了这些清洗任务上
- 数据集成:这些大号一共20亿粉丝?
- 数据变换:考试成绩要求正态分布合理么?
- 数据可视化:掌握数据领域的万金油技能
- 一次学会Python数据可视化的10种技能
- 数据分析基础篇答疑
-
你为什么需要数据分析能力
1.如何从海量的数据中找到关联关系,以及如何进行价值挖掘
数据分析全景图及修炼指南
1.数据分析的三个部分
- 数据采集,可以使用八爪鱼,也可以自己写爬虫
- 数据挖掘,Weka(一个免费的数据挖掘工作平台)
- 数据可视化,Matplotlib等工具
学习数据挖掘的最佳路径是什么
1.数据挖掘工作,就好像钻井一样,通过分析数据,从庞大的数据中发现规律,找到宝藏
2.数据挖掘的十大经典算法
- 分类算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CART
- 聚类算法:K-Means,EM
- 关联分析:Apriori
- 连接分析:PageRank
3.数据挖掘的数学原理 - 概率论与数理统计
- 线性代数
- 图论
- 最优化方法
Python基础语法:开始你的Python之旅
1.在数据科学领域,Python 有许多非常著名的工具库:比如科学计算工具 NumPy 和 Pandas 库,深度学习工具 Keras 和 TensorFlow,以及机器学习工具 Scikit-learn,使用率都非常高
Python科学计算:用NumPy快速处理数据
1.它不仅是 Python 中使用最多的第三方库,而且还是 SciPy、Pandas 等数据科学的基础库
2.Numpy比Python原生结构节约了内存和计算时间,NumPy 和标准 Python 最大的区别在于 NumPy 中重新对数组进行了定义,同时提供了算术和统计运算,你也可以使用 NumPy 自带的排序功能,一句话就搞定各种排序算法
3.避免采用隐式拷贝,而是采用就地操作的方式。举个例子,如果我想让一个数值 x 是原来的两倍,可以直接写成 x*=2,而不要写成 y=x*2
4.在 NumPy 里有两个重要的对象
- ndarray解决了多维数组问题
- ufunc则是解决对数组进行处理的函数
5.ndarray
- 含义就是多维数组,在Numpy中,维数叫轶,一维数组的轶是1
- 每一个线性数组又是一个轴,其实轶就是描绘轴的数量
- 常用函数
- 函数 shape 属性获得数组的大小
- 通过 dtype 获得元素的属性
- NumPy里面也可以有类似JAVA对象的结构数组,通过dtype定义
6.ufunc
- 主要是用来运算,而且计算很快
- 常用函数
- 两个数组之间的加、减、乘、除、求 n 次方和取余数
- 数据中的最大值、最小值、平均值,是否符合正态分布,方差、标准差多少,我们也可以指定行或列来统计
7.NumPy排序
- Numpy的sort函数可以直接排序
- 默认是快速排序