1、区分召回率和精确率
以下两种描述分别对应哪两种对分类算法的评价标准?
(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。
(b)描述有多少比例的小偷给警察抓了的标准
2、在相关性分析中需要相关的两个变量()
3、python中函数含义
numpy.reciprocal()该函数对数组中的每个元素取倒数,并以数组的形式将它们返回;
numpy.power(a,b)该函数将 a 数组中的元素作为底数,把 b 数组中与 a 相对应的元素作幂 ,最后以数组形式返回两者的计算结果;
numpy.mod()返回两个数组相对应位置上元素相除后的余数;
numpy.multiply()函数是数组乘法运算,返回两个数组相乘的结果;
data. unique():返回NumPy数组ndarray中唯一元素值的列表;
data.value_counts():返回每种元素的值及其在出现的次数;
data.nunique()以整数int形式返回唯一元素的数量;
data.count()方法用于统计非空字符串数量;
两种排序方法,分别是按标签排序和按数值排序。
按照标签排序的话采用的是sort_index()函数;
按照值排序的话采用sort_values() 函数
两个函数都有一个控制排序顺序的参数ascending,ascending=False时由大到小排序
4、数据标准化的方法
经常使用的标准化方法包括:极差标准化法(min-max方法);Z-score标准化法;线性比例标准化法:极大化法、极小值法、log函数标准化法和反正切函数标准化法;
PCA方法又名主成分分析方法,是一种数据降维方法,并不是标准化方法;
5、随机模拟
5.1 定义
随机模拟方法是通过仿真随机系统的运行来获得系统的状态变化与输出结果的大量数据,进而对所得数据进行统计分析,估算系统行为的某些特征,并将估计的误差控制在一定范围内。
5.2 步骤
1.描述系统
系统的输入、状态、输出。
随机事件是什么
2.设置变量
为系统的输入、状态、输出设置变量
为随机事件设定随机数
3.运行规则
系统状态如何变化
随机数如何产生
4.模拟系统
给定系统初始情况
给出系统的输出
5.抽样与统计
大量重复模拟试验
对结果进行统计
6.解释结果
解释模拟结果
必要时改变某些设定重新模拟
案例:电池蓄电问题
考虑一个由充电电池构成的供电系统,一共有两个电池和一个充电器。其中一个电池给设备供电,另一个电池备用。
电池的耗尽时间为 1, 2, 3, 4, 5, 6 小时的其中一种情况,并且随机。耗尽的电池充满电需要 2.5 小时。假设初始状态两个电池都是充满电的。
问:设备可以持续工作多长时间。
解两式子,得x=14
6、概率论基础知识
面对概率题,不要太相信直觉,算出来的结果更可靠
例题1
一根棍子,随机选个分割点,将棍子分为两根。
a. 较小的那一根的长度平均是多少?
b. 较小的那一根与较长的那一根的比例平均是多少?
a:
对y分段求积分,结果1/4
b:对下式分段求积分,结果为2ln2-1