挂电的小瓜虫-CSDN博客

转载奇异值SVD

https://baijiahao.baidu.com/s?id=1593718971327680624&wfr=spider&for=pc

2020-01-10 17:53:34 126

原创 python OOP super

super（）如果是单继承，直接以父类名引用父类方法是没有问题的以上方法不适用于多继承情况，借用super（）

2019-12-14 18:20:42 160

原创 python OOP @property

@propertyclass 有属性以及方法直接赋予属性值导致不通过检查（属性有取值范围）就随便篡改通过getter 以及setter可以达到目的由于上述方法太复杂，运用@property 可以既能检查参数又能用属性的方式访问。@property 相当于@score.getter 把方法变成属性，同时@property 创建@score.setter,这样就拥有了一个可读可写的...

2019-12-14 18:10:40 157

原创 python pandas 筛选

直接筛选df=data[data[“col_name”]==value & data[“col_name”]==value]只能用&不能用and用map筛选df1=data[“col_name”].map(lambda x:xvalue)df2=data[“col_name”].map(lambda x:xvalue)df=data[df1 & df2]...

2019-11-26 10:22:58 267

原创 python pandas 读取列名以及index

读取df的列名[col for col in df]df.columns.values返回一个array，用tolist()返回一个listdf.columns返回一个index，用tolist()返回一个listlist（df）读取indexdf.index.tolist()...

2019-11-24 17:39:05 6570

原创 python pandas 数据切片

import pandas as pdimport numpy as npdate1 = pd.date_range("20170813",periods=6)df = pd.DataFrame(data=np.random.randint(3,9,size=(6,6)),index=date1,columns=list(["a","b","c","d","e","f"]))df直...

2019-11-24 17:14:08 383

原创 python pandas clip

clip剪辑：大于最大阙值都等于最大阙值，小于最小阙值都等于最小阙值lower：最小阙值upper：最大阙值DataFrame.clip(lower=None, upper=None, axis=None, inplace=False, *args, **kwargs)data = {‘col_0’: [9, -3, 0, -1, 5], ‘col_1’: [-2, -7, 6, ...

2019-11-21 15:35:28 1208

转载 python pandas fillna

fillna填充缺失值df.fillna()import pandas as pdimport numpy as npfrom numpy import nan as NaNdf1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]])df1

2019-11-21 12:42:19 295

原创 python pandas合并函数 merge join concat

1.merge通过关键字连接两个df，是真正意义上的融合。pd.merge(df1,df2,on=“col_name”,left_on=“col_name”,right_on=“col_name”,how=“连接方式”，left_index=False, right_index=False)1 相同关键字import pandas as pddf1=pd.DataFrame({'key'...

2019-11-21 12:20:32 295

原创 python pandas groupby agg

1 groupby分组函数：df.groupby([“col_name”,“col_name”])2 agg聚合函数：df_gb.agg=({“col_name”:[“min”,“max”],“col_name”:[“min”,“max”]})import pandas as pd df = pd.DataFrame({'Country':['China','China', 'Indi...

2019-11-21 11:10:26 424

转载模型融合

模型融合（Model Ensemble）常见的模型融合方法有：Bagging、Boosting、Stacking、Blending。(3-1):BaggingBagging 将多个模型，也就是多个基学习器的预测结果进行简单的加权平均或者投票。它的好处是可以并行地训练基学习器。Random Forest就用到了Bagging的思想。(3-2): BoostingBoosting 的思想有点...

2019-11-20 18:27:48 159

原创评估模型性能方法--数据分割

1 保持方法把原有数据集划分成训练集以及测试集（验证集）在训练集上训练之后在测试集上评估，局限在于数据集太少，训练模型欠拟合以及测试集估计不准确2 k-折交叉验证将数据集划分为k组，k-1作为训练集，1作为测试集，k轮循环之后k的模型的测试结果的误差平均值作为评价模型的性能指标。（类似于模型融合的数据集角度）优点：信息充分利用使用同样的算法，计算方便精度为平均值，精度提升留一...

2019-11-20 18:15:49 535

原创数值预测模型评价指标以及正则化

1.均方误差MSE（L2）2.均方根误差RMSE3.平均绝对误差MAE（L1）4.比较MSE对应于平均数，受异常点的影响较大，使用固定的学习率也有效收敛，损失的梯度随损失的增大而增大，在损失趋于0时则会减少，因此结果更加精准，导数连续，求解效率较高。MAE对应于中位数，对异常点的鲁棒性较好，损失梯度不变，不利于学习，为了解决这个问题，我们可以使用变化的学习率，在损失接近最小值的...

2019-11-20 17:30:37 1700

原创分类模型评价指标-ROC AUC

1.非均衡分类问题不同类别的分类代价不相等。重点：分清楚那个是positive（yes） negative（no）例如还贷预测模型。垃圾邮件识别中，我们希望识别出所有信用坏的用户以及重要邮件（Negative)，所以希望选精确率高的模型。例如识别吸毒模型，肿瘤识别模型中，我们希望不漏判吸毒者以及阳性肿瘤患者（positive），所以选召回率高的模型。2.ROC曲线复习混淆矩阵横坐标...

2019-11-20 15:12:37 482

原创分类模型评判指标-混淆矩阵

混淆矩阵是评判模结果的指标，属于模型评估的一部分。只适用于分类模型，判断分类器的性能。比如分类树，逻辑回归。以二分类为例，判断样本结果是positive以及negative。一级指标：TN TP FN FP混淆矩阵如下：ps：图中P和N 是指预测值二级指标：三级指标其中P指精确率，R指召回率F1-Score指标综合R和P，取值范围从0-1，1代表模型输出最好，0代表最...

2019-11-20 14:05:54 1035

转载 python pandas sort_values()

sort_values()用法：DataFrame.sort_values(by=‘’,axis=0,ascending=True, inplace=False, na_position=‘last’)

2019-11-19 17:40:40 571

原创 python product

product(list,list)笛卡尔乘积import itertoolslist(itertools.product([1,2,3],[1,2,3]))结果：[(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (3, 3)]

2019-11-19 16:57:51 252

转载 python numpy stack hstack vstack

两个array的不同连接方式1.stack（）按照指定的轴对数组序列进行联结。语法格式：numpy.stack(arrays, axis=0, out=None)import numpy as npa=[[1,2,3], [4,5,6]]b=[[1,2,3], [4,5,6]]c=[[1,2,3], [4,5,6]]print("a=",a)print("b="...

2019-11-19 16:31:39 143

原创 python pandas isin

对比两个dataframe某列的值：df=data_test[~data_test["shop_id"].isin(data_train["shop_id"]) | ~data_test["item_id"].isin(data_train["item_id"])]df是test里面新有的（无论是shop还是item）A.isin（B）：A中有B的行是TRUE 否则FALSE~是非的意...

2019-11-19 15:46:46 454

原创 kaggle入门-泰坦尼克

机器学习流程导入数据：pd.read_csv观察数据：head()、info()、describe()数据可视化画子图plt.subplot2grid((2,3),(1,0))两行三列中第二行第一列的位置每列按照unique值统计数量画条形图：df.col_name.values_counts().plot(kind=“bar”)在此基础上观察某X于Y之间的联系df.col_nam...

2019-11-17 13:47:20 133

Data Driven Modeling 课程1.Core CourseMSDM 5001 Introduction to Computational and Modeling ToolsThe basics about CPU, GPU and their applications in high performance computing; introduction of the ope...

2019-08-01 15:07:37 1605

原创机器学习python实战——第二章k-近邻算法

k-近邻算法针对多分类问题三大要素：k值，距离度量，决策规则k值：过大，过拟合；过小，欠拟合？？距离度量：L-P函数决策规则：多数表决主函数：classify输入：k值，待分类数据集，学习数据集，训练数据类别输出：类别思路：计算待分类数据与左右训练数据的距离，根据距离小的前k个的数据类别的多数决定该数据的类别子函数：（1）file2matrix：读取文件输入：文件名输出：...

2019-07-31 19:25:47 162

原创机器学习python实战——第三章决策树

机器学习python实战：第四章——决策树@TOC决策树【1】创造树主函数：creattree输入：待学习的数据包括标签以及数据（x and y）输出：决策树思路：首先判断子树的所有实例类别是否完全相同，若是返回类别即可，其次判断是都是否已无特征可作为分类依据（所以要更新标签），若是返回大多数实例（majority）的类别即可，选择令信息增量最大的特征，choose包含calce...

2019-07-31 18:31:34 225

jia_shun_L的博客