用python进行数据分析（入门学习）_python数据分析介绍

2401_84297944

已于 2024-04-29 17:00:34 修改

阅读量484

点赞数 14

分类专栏：程序员文章标签： python 数据分析学习

于 2024-04-29 17:00:32 首次发布

本文链接：https://blog.csdn.net/2401_84297944/article/details/138318776

版权

程序员专栏收录该内容

166 篇文章 1 订阅

订阅专栏

arr[1] # 取出numpy数组中的下标为1的行数据（python中行标从0开始计）
————显示结果————
array([17, 49, 33, 36, 17, 89])

arr[[1,3,4]] # 取出多行数据
————显示结果————
array([[17, 49, 33, 36, 17, 89],
[ 5, 41, 89, 39, 47, 67],
[72, 30, 55, 41, 71, 29]])


对数组进行任意行或列的切片操作：

a1 = arr[0:2] # 切出数组的前两行数据
a2 = arr[:,0:2] # 切出数组的前两列数据
————显示结果————
array([[98, 62, 31, 14, 1, 54],
[17, 49, 33, 36, 17, 89]])

array([[98, 62],
[17, 49],
[ 7, 29],
[ 5, 41],
[72, 30]])

a3 = arr[0:2,0:2] # 切出前两行的前两列
————显示结果————
array([[98, 62],
[17, 49]])


对数组数据进行翻转：

arr[::-1] # 将数组的行倒置
arr[:,::-1] # 将数组的列倒置
————显示结果————
array([[72, 30, 55, 41, 71, 29],
[ 5, 41, 89, 39, 47, 67],
[ 7, 29, 87, 36, 54, 31],
[17, 49, 33, 36, 17, 89],
[98, 62, 31, 14, 1, 54]]))
array([[54, 1, 14, 31, 62, 98],
[89, 17, 36, 33, 49, 17],
[31, 54, 36, 87, 29, 7],
[67, 47, 39, 89, 41, 5],
[29, 71, 41, 55, 30, 72]])

arr[::-1,::-1] # 将所有的元素倒置
————显示结果————
array([[29, 71, 41, 55, 30, 72],
[67, 47, 39, 89, 41, 5],
[31, 54, 36, 87, 29, 7],
[89, 17, 36, 33, 49, 17],
[54, 1, 14, 31, 62, 98]])


使用reshape()函数可以对数组维度变形：

arr1 = arr.reshape(30) # 将二维数组变形成一维数组
————显示结果————
array([98, 62, 31, 14, 1, 54, 17, 49, 33, 36, 17, 89, 7, 29, 87, 36, 54,
31, 5, 41, 89, 39, 47, 67, 72, 30, 55, 41, 71, 29])

arr2 = arr1.reshape(3,10) # 将二维数组变形为二维数组
————显示结果————
array([[98, 62, 31, 14, 1, 54, 17, 49, 33, 36],
[17, 89, 7, 29, 87, 36, 54, 31, 5, 41],
[89, 39, 47, 67, 72, 30, 55, 41, 71, 29]])


#### *四、numpy的级联操作*


* 将多个numpy数组进行横向或纵向的拼接
* axis轴向的表示：在numpy的大多数函数中，axis=0表示纵向操作；axis=1表示横向操作。但是，在drop类函数中，二者相反。


注：拼接的两个数组必须维度和行列数一致。

np.concatenate((arr,arr),axis=0)
————显示结果————
array([[98, 62, 31, 14, 1, 54],
[17, 49, 33, 36, 17, 89],
[ 7, 29, 87, 36, 54, 31],
[ 5, 41, 89, 39, 47, 67],
[72, 30, 55, 41, 71, 29],
[98, 62, 31, 14, 1, 54],
[17, 49, 33, 36, 17, 89],
[ 7, 29, 87, 36, 54, 31],
[ 5, 41, 89, 39, 47, 67],
[72, 30, 55, 41, 71, 29]])

np.concatenate((arr,arr),axis=1)
————显示结果————
array([[98, 62, 31, 14, 1, 54, 98, 62, 31, 14, 1, 54],
[17, 49, 33, 36, 17, 89, 17, 49, 33, 36, 17, 89],
[ 7, 29, 87, 36, 54, 31, 7, 29, 87, 36, 54, 31],
[ 5, 41, 89, 39, 47, 67, 5, 41, 89, 39, 47, 67],
[72, 30, 55, 41, 71, 29, 72, 30, 55, 41, 71, 29]])


#### *五、常用的聚合函数*


* sum, max, min, mean

arr.sum() # 求出数组元素之和
————显示结果————
1331

arr.sum(axis=1) # 求出数组每一行元素之和；如果axis=0，则求出数组每一列元素之和
————显示结果————
array([260, 241, 244, 288, 298])

其他聚合函数的使用方法大致相同


#### *六、常用的数学函数*


* numpy提供了标准的三角函数：sin(), cos(), tan()
* numpy.around(a, decimals)函数返回指定数字的四舍五入值


参数说明：a-数组；decimal-舍入的小数位数，默认值为0，如果为负，整数将四舍五入到小数点左侧的位置。

np.around(3.14,1)
————显示结果————
3.1

np.around(3.14,-1)
————显示结果————
0.0

np.around(6.34,-1)
————显示结果————
10.0


#### *七、常用的统计函数*


* numpy.amin() 和numpy.amax()，用于计算数组中的元素沿指定轴的最小、最大值
* numpy.ptp() 函数计算数组中元素最大值与最小值的差（可指定轴向）
* numpy.median() 函数用于计算数组中元素的中位数
* 标准差std()
* 方差var()

np.ptp([[1,2,3],[6,9,23]],axis=0) # 返回数组中每一列元素的极差
np.ptp([[1,2,3],[6,9,23]],axis=1) # 返回数组中每一行元素的极差
————显示结果————
array([ 5, 7, 20])
array([ 2, 17])

arr[1].std() # 返回数组第一行的标准差
arr[1].var() # 返回数组第一行的方差


#### *八、矩阵相关的函数*


* numpy中包含了一个矩阵库numpy.matlib，该模块中的函数返回的是一个矩阵，而不是ndarray对象
* numpy.matlib.identity() 函数返回给定大小的单位矩阵
* 行列转置
* 两个矩阵相乘

arr.T # xx.T 将xx数组行列转置

a1 = np.array([[2,1],[4,3]])
a2 = np.array([[1,2],[1,0]])
np.dot(a1,a2) # 将a1和a2两个矩阵相乘
————结果显示————
array([[3, 4],
[7, 8]])


### 数据分析三剑客之pandas模块


*为什么要学习pandas？——numpy能够帮助我们处理的是**数值型**的数据，pandas可以帮我们很好的处理除了数值型的其他数据。*


*在pandas中常用的两个类：Series、DataFrame*


#### *一、Series的用法*


Series是一种类似于**一维数组**的对象，由下面两个部分组成：


* values- 一组数据（ndarray类型）
* index- 相关的数据索引标签


***1、Series的创建***


* 由列表或numpy数组创建
* 由字典创建


首先导入模块：

from pandas import Series
s = Series(data=[1,2,3,‘four’]) # 创建一个Series类的数组
————显示结果————
0 1
1 2
2 3
3 four
dtype: object


可以为Series类的数组指定显式索引，增强Series的可读性：

s = Series(data=[1,2,3,‘four’],index=[‘a’,‘b’,‘c’,‘d’]) # 指定行索引为’a’,‘b’,‘c’,‘d’
————结果显示————
a 1
b 2
c 3
d four
dtype: object


由字典创建一个Series类的数组：

dic = {‘语文’:100,
‘数学’:99,
‘英语’:89}
s1 = Series(data=dic) # 字典里面的key成为Series对象里的显式行索引
————结果显示————
语文 100
数学 99
英语 89
dtype: int64

s1.语文 # 返回显式索引所对应的数值
————结果显示————
100

s1[0:2] # 取s1中的前两行数据
————结果显示————
语文 100
数学 99
dtype: int64


***2、Series的常用属性***


* shape
* size
* index
* values
* dtype

s1.shape # 返回数组形状
————结果显示————
(3,)

s1.size # 返回元素个数
————结果显示————
3

s1.index # 返回数组索引
————结果显示————
Index([‘语文’, ‘数学’, ‘英语’], dtype=‘object’)

s1.values # 返回元素
————结果显示————
array([100, 99, 89], dtype=int64)

s1.dtype # 返回元素类型
————结果显示————
dtype(‘int64’)


注：Series中只能存储同类型的元素。


***3、Series的常用方法***


* head(), tail()
* unique()
* isnull(), notnull()
* add(), sub(), mul(), div()

s2 = Series(data=np.random.randint(60,100,size=(10)))
s2.head(4) # 显示s2数组中的前4个数据，如果不指定个数，则默认为前5个
————结果显示————
0 98
1 97
2 83
3 66
dtype: int32

s2.tail(4) # 显示数组中的后4个数据

s2.unique() # 表示数据去重

s2.isnull() # 用于判断每个元素是否为空，是返回true，否返回false
————结果显示————
0 False
1 False
2 False
3 False
4 False
5 False
6 False
7 False
8 False
9 False
dtype: bool


***4、Series的算术运算***


* 法则：索引一致的元素进行算术运算，不一致则补空

d1 = Series(data=[1,2,3],index=[‘a’,‘b’,‘c’])
d2 = Series(data=[1,2,3],index=[‘a’,‘d’,‘c’])
d = d1 + d2
————结果显示————
a 2.0
b NaN
c 6.0
d NaN
dtype: float64


#### 二、DataFrame的用法


*介绍：DataFrame是一个**表格型**的数据结构。DataFrame由按一定顺序排列的多列数据组成，将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。*


* index - 行索引
* columns - 列索引
* values - 值


***1、DataFrame的创建***


* ndarray创建
* 字典创建


首先从pandas库导入DataFrame：

from pandas import DataFrame
df = DataFrame(data=[[1,2,3],[4,5,6]]) # 用ndarray的形式创建
df = DataFrame(data=np.random.randint(0,100,size=(6,4)))
dic = {
‘name’:[‘zhangsan’,‘lisi’,‘wangwu’],
‘salary’:[100,2000,3000]}
df = DataFrame(data=dic) # 用字典的形式创建
————结果显示————
name salary
0 zhangsan 100
1 lisi 2000
2 wangwu 3000


可以为DataFrame表格指定行索引：

df = DataFrame(data=dic,index=[‘a’,‘b’,‘c’])
————结果显示————
name salary
a zhangsan 100
b lisi 2000
c wang 3000

指定列索引时同理，添加columns=[‘a’,‘b’,‘c’,‘d’]


***2、DataFrame的属性***


* values
* columns
* index
* shape

df.values # 返回表格元素
————结果显示————
array([[‘zhangsan’, 100],
[‘lisi’, 2000],
[‘wang’, 3000]], dtype=object)

df.columns # 返回表格的列
————结果显示————
Index([‘name’, ‘salary’], dtype=‘object’)

df.index # 返回表格的行索引
————结果显示————
Index([‘a’, ‘b’, ‘c’], dtype=‘object’)

df.shape # 返回表格的形状
————结果显示————
(3, 2)


***3、DataFrame的索引操作***


* 取列元素
* 取行元素
* 取元素
* iloc - 隐式索引；loc - 显式索引

ddf = DataFrame(data=np.random.randint(60,100,size=(8,4)),columns=[‘a’,‘b’,‘c’,‘d’])
————结果显示————
a b c d
0 70 77 97 88
1 67 67 80 60
2 95 69 79 99
3 77 84 83 68
4 94 85 70 68
5 64 78 86 86
6 83 62 98 70
7 92 67 60 65

ddf[‘a’] # 取指定单列值，如果ddf有显式的索引，通过索引机制取行或取列的时候只可以使用显示索引
————结果显示————
0 70
1 67
2 95
3 77
4 94
5 64
6 83
7 92
Name: a, dtype: int32

ddf[[‘a’,‘c’]] # 取指定的多列值
————结果显示————
a c
0 70 97
1 67 80
2 95 79
3 77 83
4 94 70
5 64 86

如何自学黑客&网络安全

黑客零基础入门学习路线&规划

初级黑客
1、网络安全理论知识（2天）
①了解行业相关背景，前景，确定发展方向。
②学习网络安全相关法律法规。
③网络安全运营的概念。
④等保简介、等保规定、流程和规范。（非常重要）

2、渗透测试基础（一周）
①渗透测试的流程、分类、标准
②信息收集技术：主动/被动信息搜集、Nmap工具、Google Hacking
③漏洞扫描、漏洞利用、原理，利用方法、工具（MSF）、绕过IDS和反病毒侦察
④主机攻防演练：MS17-010、MS08-067、MS10-046、MS12-20等

3、操作系统基础（一周）
①Windows系统常见功能和命令
②Kali Linux系统常见功能和命令
③操作系统安全（系统入侵排查/系统加固基础）

4、计算机网络基础（一周）
①计算机网络基础、协议和架构
②网络通信原理、OSI模型、数据转发流程
③常见协议解析（HTTP、TCP/IP、ARP等）
④网络攻击技术与网络安全防御技术
⑤Web漏洞原理与防御：主动/被动攻击、DDOS攻击、CVE漏洞复现

5、数据库基础操作（2天）
①数据库基础
②SQL语言基础
③数据库安全加固

6、Web渗透（1周）
①HTML、CSS和JavaScript简介
②OWASP Top10
③Web漏洞扫描工具
④Web渗透工具：Nmap、BurpSuite、SQLMap、其他（菜刀、漏扫等）
恭喜你，如果学到这里，你基本可以从事一份网络安全相关的工作，比如渗透测试、Web 渗透、安全服务、安全分析等岗位；如果等保模块学的好，还可以从事等保工程师。薪资区间6k-15k

到此为止，大概1个月的时间。你已经成为了一名“脚本小子”。那么你还想往下探索吗？

如果你想要入坑黑客&网络安全，笔者给大家准备了一份：282G全网最全的网络安全资料包评论区留言即可领取！

7、脚本编程（初级/中级/高级）
在网络安全领域。是否具备编程能力是“脚本小子”和真正黑客的本质区别。在实际的渗透测试过程中，面对复杂多变的网络环境，当常用工具不能满足实际需求的时候，往往需要对现有工具进行扩展，或者编写符合我们要求的工具、自动化脚本，这个时候就需要具备一定的编程能力。在分秒必争的CTF竞赛中，想要高效地使用自制的脚本工具来实现各种目的，更是需要拥有编程能力.

如果你零基础入门，笔者建议选择脚本语言Python/PHP/Go/Java中的一种，对常用库进行编程学习；搭建开发环境和选择IDE,PHP环境推荐Wamp和XAMPP， IDE强烈推荐Sublime；·Python编程学习，学习内容包含：语法、正则、文件、网络、多线程等常用库，推荐《Python核心编程》，不要看完；·用Python编写漏洞的exp,然后写一个简单的网络爬虫；·PHP基本语法学习并书写一个简单的博客系统；熟悉MVC架构，并试着学习一个PHP框架或者Python框架 (可选)；·了解Bootstrap的布局或者CSS。

8、超级黑客
这部分内容对零基础的同学来说还比较遥远，就不展开细说了，附上学习路线。