包含编程资料、学习路线图、源代码、软件安装包等!【[点击这里] 】!
1.NumPy (Numerical Python)
简介:NumPy 是 Python 科学计算的基础库,提供了高性能的多维数组对象(“ndarray”)以及用于数组操作的各种工具。它是许多其他数据科学库的基础。
主要功能:
高效的数组和矩阵运算:NumPy 的核心是"ndarray"对象,它允许进行向量化运算,避免了 Python 循环的低效,极大地提高了计算速度。支持广播机制,使得不同形状的数组之间也能进行运算。 强大的数学函数:提供了大量的数学函数,包括三角函数、指数函数、对数函数、统计函数等,可以直接应用于数组元素。 随机数生成:提供了各种概率分布的随机数生成函数,用于模拟实验、数据生成等。 线性代数运算:支持矩阵乘法、求逆、特征值分解等线性代数运算。
适用场景:数值计算、科学计算、图像处理、机器学习等。
import numpy as np
arr = np. array( [ 1 , 2 , 3 , 4 , 5 ] )
matrix = np. array( [ [ 1 , 2 ] , [ 3 , 4 ] ] )
print ( arr * 2 )
print ( np. sin( arr) )
print ( matrix. T)
print ( np. dot( matrix, matrix) )
2.Pandas (Python Data Analysis Library)
简介: Pandas 提供了高性能、易用的数据结构和数据分析工具,是数据分析的核心库。它基于 NumPy 构建,但提供了更高级的数据结构和操作。
主要功能:
“Series"和"DataFrame”:"Series"类似于一维数组,带标签的数组;"DataFrame"类似于表格,由多个"Series"组成。这是 Pandas 最重要的两种数据结构。 数据清洗和预处理:提供了处理缺失值(“NaN”)、重复值、数据类型转换等功能,是数据分析流程中至关重要的一步。 数据选择和切片:提供了灵活的数据选择和切片方式,可以使用标签、位置、布尔索引等。 数据分组和聚合:可以根据某一列或多列进行分组,然后进行统计、求和、平均值等聚合操作。 时间序列分析:专门处理时间序列数据,提供了日期和时间相关的函数和工具。 I/O 操作:方便地读取和写入各种数据格式(CSV、Excel、JSON、SQL 数据库等)。
适用场景:数据清洗、数据探索、数据分析、数据可视化等。
import pandas as pd
data = { 'Name' : [ 'Alice' , 'Bob' , 'Charlie' , 'David' ] , 'Age' : [ 25 , 30 , 28 , np. nan] , 'City' : [ 'New York' , 'London' , 'Paris' , 'Tokyo' ] }
df = pd. DataFrame( data)
df[ 'Age' ] . fillna( df[ 'Age' ] . mean( ) , inplace= True )
print ( df. groupby( 'City' ) [ 'Age' ] . mean( ) )
3.Matplotlib
简介:Matplotlib 是 Python 中最常用的绘图库,提供了丰富的绘图工具,可以创建各种静态、动态和交互式图表。
主要功能:
各种图表类型:折线图、散点图、柱状图、饼图、直方图、箱线图等。 图表定制:可以自定义图表的各种属性,如标题、标签、颜色、线条样式、图例等。 子图:可以在同一张图表中绘制多个子图,方便进行数据比较。
适用场景:数据可视化、数据探索、结果展示等。
import matplotlib. pyplot as plt
x = [ 1 , 2 , 3 , 4 , 5 ]
y = [ 2 , 4 , 1 , 3 , 5 ]
plt. plot( x, y, marker= 'o' , linestyle= '--' )
plt. xlabel( 'X Axis' )
plt. ylabel( 'Y Axis' )
plt. title( 'Line Chart' )
plt. show( )
4.Seaborn
简介:Seaborn 是基于 Matplotlib 的高级可视化库,提供了更美观、更高级的图表类型,并且更易于使用。它专注于统计数据可视化。
主要功能:
统计图形:提供了各种统计图形,如分布图(histplot, kdeplot, displot)、关系图(scatterplot, lineplot, relplot)、分类图(boxplot, violinplot, catplot)等。 美观的图表样式:内置了多种美观的图表样式,可以轻松创建专业级的图表。 与 Pandas 集成:可以方便地使用 Pandas 的 DataFrame
进行绘图,代码更加简洁。
适用场景:数据可视化、统计分析、探索性数据分析等。
5.SciPy (Scientific Python)
简介:SciPy 是基于 NumPy 的科学计算库,提供了各种科学计算工具,包括优化、积分、插值、信号处理、统计等。
主要功能:
优化:提供了各种优化算法,如最优化、最小化、根查找等。 积分:提供了数值积分算法。 插值:提供了各种插值方法,用于数据拟合和预测。 信号处理:提供了信号处理工具,如滤波、频谱分析等。 统计:提供了各种统计函数和概率分布。
适用场景:科学计算、工程计算、信号处理、图像处理等。
6.Statsmodels
简介:Statsmodels 提供了各种统计模型和统计测试工具,专注于统计建模和推断。
主要功能:
线性模型:提供了线性回归、广义线性模型(GLM)、混合效应模型等。 时间序列分析:提供了时间序列模型、平稳性检验、自相关和偏自相关函数等。 统计测试:提供了各种统计检验方法,如 t 检验、卡方检验、F 检验等。
适用场景:统计建模、计量经济学、时间序列分析等。
7.Scikit-learn (sklearn)
简介:Scikit-learn 是 Python 中最常用的机器学习库,提供了各种机器学习算法和工具。
主要功能:
分类:支持向量机 (SVM)、决策树、随机森林、朴素贝叶斯等。 回归:线性回归、岭回归、逻辑回归等。 聚类:K 均值聚类、DBSCAN、层次聚类等。 降维:主成分分析 (PCA)、线性判别分析 (LDA) 等。 模型选择和评估:交叉验证、网格搜索、各种评估指标等。
适用场景:机器学习、数据挖掘、模式识别等。
这些库在数据分析中扮演着不同的角色,通常需要结合使用才能完成复杂的数据分析任务。例如,使用 Pandas 进行数据清洗和预处理,使用 Matplotlib 或 Seaborn 进行数据可视化,使用 NumPy 进行数值计算,使用 Scikit-learn 进行机器学习建模。掌握这些库,可以有效地进行各种数据分析工作。
总结
最后希望你编程学习上不急不躁,按照计划有条不紊推进,把任何一件事做到极致,都是不容易的,加油,努力!相信自己!
文末福利
最后这里免费分享给大家一份Python全套学习资料,希望能帮到那些不满现状,想提升自己却又没有方向的朋友,也可以和我一起来学习交流呀。
包含编程资料、学习路线图、源代码、软件安装包等!【[点击这里] 】领取!
① Python所有方向的学习路线图,清楚各个方向要学什么东西 ② 100多节Python课程视频,涵盖必备基础、爬虫和数据分析 ③ 100多个Python实战案例,学习不再是只会理论 ④ 华为出品独家Python漫画教程,手机也能学习
可以扫描下方二维码领取【保证100%免费 】