jupyter
文章平均质量分 57
每天都是被迫学习
不爱学习
反内卷
爱玩
更多复试内容关注“读研随记”
展开
-
python基础学习10【哑变量处理、离散化(等宽法、等频法、基于聚类分析的方法)、fit()、聚类模型评价指标、 分类模型评价指标、ROC曲线】
在数据分析领域,分类算法有很多,其原理千差万别,有基于样本距离的最近邻算法,有基于特征信息熵的决策树,有基于bagging的随机森林,有基于boosting的梯度提升分类树,但其实现过程相差不大。回归模型的性能评估不同于分类模型,虽然都是对照真实值进行评估,但由于回归模型的预测结果和真实值都是连续的,所以不能够求取precision|recall和F1值等评价指标。组内的对象相互之间是相似的,而不同组中的对象是不同的,即组内的相似性越大,组内差别越大,聚类效果就越好。(可以看到k取2时,聚类效果最好)原创 2023-06-27 00:00:00 · 3238 阅读 · 0 评论 -
python基础学习9【MinMaxScale()、StandScale()、DecimalScale、transformer】
sklearn库的datasets模块集成了部分数据分析的经典数据集,可以使用这些数据集进行数据预处理,建模等操作,熟悉sklearn的数据处理流程和建模流程;也叫零均值标准化或分数标准化,是当前使用最广泛的数据标准化方法。经过该方法处理的数据均值为0,标准差为1。数据的整体分布情况并不会随离差标准化而发生改变,原先取值较大的数据,在做完离差标准化后的值依旧较大;对原始数据的一种线性变换,结果是将原始数据的数值映射到[0,1]区间之间。通过移动数据的小数位数,将数据映射到区间[-1,1]之间。原创 2023-06-26 00:15:00 · 611 阅读 · 0 评论 -
pyhton基础学习8【drop_duplicates去重、corr()、找缺失值、dropna()、fillna()、插值法(拉格朗日、样条)异常检测(拉依达原则和箱线图)】
不仅支持单一特性的数据去重,还能依据dataframe的其中一个或者几个特征进行去重操作。分为删除观测记录和删除特征两种,它属于利用减少样本量来换取信息完整度的一种方法,是一种最简单的缺失值处理方法。list列表去重和集合set去重:(list自定义去重,set的元素是唯一的特性去重)上面两种方法:方法一代码冗长,方法二代码简单,但会导致数据的排序发生改变。dropna()函数:删除缺失值,可以删除观测记录,也可以删除特征。数据中的某个或某些特征的值是不完整的,这些值称为缺失值;可分为数值型和类别型。原创 2023-06-25 00:00:00 · 1584 阅读 · 0 评论 -
python基础学习7【聚合apply()、透视表pivot_table()、concat()、主键合并merge()、join()、combine_first()】
在外连接的情况下,则显示索引的并集部分数据,不足的地方则使用空值填补。数据分析和处理过程中若出现两份数据的内容几乎一致的情况,但是某些特征在其中一张表上是完整的,而在另外一张表上的数据则是缺失的时候,可以用combine_first进行重叠合并。和数据库的join一样,merge函数也有左连接、右连接、内连接和外连接,除此之外,在合并过程中可以对数据集进行排序。使用concat函数时,在默认情况下,即axis=0时,concat做列对齐,将不同行索引的两张或多张表纵向合并。改完了就能看到正常的数据。原创 2023-06-24 00:15:00 · 1109 阅读 · 0 评论 -
python基础学习6【DatatimeIndex与PeriodIndex函数+Timedelta类+连接数据库+agg()函数和aggregate()函数】
所以,我们就要让右边这个改过来~~~:【这里需要说明一下,如果用的是pandas直接的函数打开是没有问题的,出现问题是因为我是以连接数据库那种方式打开,所以产生了一点子问题。在求和时遇到了一些问题,有小伙伴知道为啥可以为我解答一下,呜呜(难道是我导入数据的时候出问题了吗?很好,这样弄完了之后,前面的错误也都解决了不会出现像上面奇奇怪怪的数字了。当我想连接数据库读取数据时报错了:(主打的就是想试试数据库了好久没用过了)然鹅,NAN与NA的区别在于:(我简单理解为它们的数据类型不一样)原创 2023-06-23 00:30:00 · 719 阅读 · 0 评论 -
python基础学习5【dataframe常用操作+增删改查】
loc内部还可以传入表达式,结果会返回满足表达式的所有值;loc更加灵活多变,代码的可读性更高,iloc的代码简洁。原创 2023-06-22 00:30:00 · 1073 阅读 · 0 评论 -
python基础学习4【Matplotlib、散点图、折线图绘制、读取存储不同数据源的数据(csv、txt、excel)、编码】
(Numpy 1.16.3版本发行后,numpy.load() 和 numpy.lib.format.read_array() 采用allow_pickle关键字,现在默认为False)运行这样的代码并不能在一个工作表中生成多余的表,新加入的只会覆盖前面,如果要想达到效果,则需要另外加一些东西:(保存到同一个工作表不同工作簿)figure.add_subplot():向figure添加一个Axes作为一subplot布局的一部分。color:线条颜色【b,g,r,c,m,y,k(黑),w】原创 2023-06-21 11:31:06 · 2184 阅读 · 0 评论 -
python基础学习3【NumPy矩阵与通用函数【矩阵相乘+平方+广播机制+转置】+ save、load、sort、repeat、unique、鸢尾花1】
NumPy文件读写主要有二进制的文件读写和文件列表形式的数据读写两种形式。【广播:指不同形状的数组之间执行算术运算的方式,需要遵循4个原则。unique函数、tile函数(对数组重复)、np.repeat()argsort()函数:返回值为重新排序值的下标。:全称通用函数,是一种能够对数组中的所有元素进行操作的函数。load函数是从二进制的文件中读取数据。save函数:以二进制的格式保存数据。arr.sort()函数【直接排序】np.savetxt()函数。np.loadtxt()函数。原创 2023-06-12 12:05:47 · 1437 阅读 · 1 评论 -
python基础学习2【numpy生成数组+random随机数生成+索引+拼接+切割【jupyter学习】】
在深度学习的Dropout正则化方法中,可以用于生成dropout随机向量(dl),例如(keep_prob表示保留神经元的比例):dl = np.random.rand(al.shape[0],al.shape[1]) < keep_prob。①np.linspace()【等差】(生成的是浮点数,若需要整型,需要手动指定数据类型--> 'dtype = int')np.linspace()与np.logspace()之间的关系:(放两张图品味一下)数组创建:numpy.array()原创 2023-06-08 12:15:05 · 1474 阅读 · 0 评论 -
python基础学习1
去掉该行前面的“#”;⑦Spyder-----交互式Python语言开发环境(包含数值计算环境)③SciPy--------解决科学计算中各种标准问题域的模块的集合。⑥scikit-lean--数据挖掘和数据分析工具(简单有效)此处可以查看另一篇写过的文章:(若需要执行文件,文末附有)①IPython------科学计算标准工具集的组成部分。⑤Matplotlib--绘制数据图表的Python库。②NumPy------python科学计算的基础包。④Pandas------数据分析核心库。原创 2023-06-07 18:23:42 · 540 阅读 · 0 评论 -
Jupyter Notebook默认路径更改
去掉该行前面的“#”;①查看当前路径:(ctrl+enter是运行的快捷键)④删除“%USERPROFILE%/”原创 2023-06-06 11:38:05 · 186 阅读 · 0 评论