python数据分析
内心的笃定
这个作者很懒,什么都没留下…
展开
-
特征选择(feature select)
单变量特征选择Univariate feature selection 分别选择每一个特征,衡量该特征与label之间的关系,选择出topk个最重要的特征 该方法可以帮助对数据的理解,但是对特征优化,提高模型的泛化能力不一定有效。selector = SelectKBest(f_classif, k=5)f_classif(方差分析的F值):评估特征的指标。一般的,原创 2017-10-20 17:53:04 · 2266 阅读 · 0 评论 -
python小知识点
def f(x,l=[]): for i in range(x): l.append(i*i) # print(l) print(l) f(2)f(3,[3,2,1])f(3)f(3,[])运行结果[0, 1][3, 2, 1, 0, 1, 4][0, 1, 0, 1, 4][0, 1, 4]注意第三行调用函数的输出结果!!判断一个list是否是另一个...原创 2018-04-30 22:14:15 · 129 阅读 · 0 评论 -
马氏距离 平移不变性; 旋转不变性; 尺度缩放不变性; 不受量纲影响的特性
转载:https://blog.csdn.net/panglinzhuo/article/details/77801869马氏距离用来度量一个样本点P与数据分布为D的集合的距离。 假设样本点为: 数据集分布的均值为: 协方差矩阵为S。则这个样本点P与数据集合的马氏距离为: 马氏距离也可以衡量两个来自同一分布的样本x和y的相似性: 当样本集合的协方差矩阵是单位矩阵时,即样本的各个维度上的方差均为1...转载 2018-05-02 01:32:59 · 6703 阅读 · 0 评论 -
python UnboundLocalError: local variable 'j' referenced before assignment
python中,在外面定义一个变量n,然后再在一个函数中使用这个变量,并改变它的值,会运行报错。n=12def func(name): if n<10: print('good') else: n=n-10 print('wrong')func('xiaoming')输出结果:报错错误提示如下:UnboundLocalEr...原创 2018-05-04 22:39:38 · 6880 阅读 · 0 评论 -
str.join(iterable)
str.join(iterable) 传入的参数必须需要是可迭代对象#当元组中的元素类型是字符串类型是,可直接将数组作为参数传入到join()中a=('hello','python3')b=''.join(a)print(b)运行结果为:hellopython3#当元组中的元素类型是整型时,会报错a=(1,2,3)#b=''.join(a) #TypeError: sequence it...原创 2018-05-05 00:50:10 · 6029 阅读 · 0 评论 -
LR和SVM的异同
原文地址在大大小小的面试过程中,多次被问及这个问题:“请说一下逻辑回归(LR)和支持向量机(SVM)之间的相同点和不同点”。第一次被问到这个问题的时候,含含糊糊地说了一些,大多不在点子上,后来被问得多了,慢慢也就理解得更清楚了,所以现在整理一下,希望对以后面试机器学习方向的同学有所帮助(至少可以瞎扯几句,而不至于哑口无言ha(*^-^*))。(1)为什么将LR和SVM放在一起来进行比较? 回答这个...转载 2018-05-06 22:33:59 · 776 阅读 · 0 评论 -
使用python实现knn
import numpy as npimport operatordef createDataSet(): group =np.array([[1.0,1.1],[1.0,1.0],[0.0,0.0],[0,0.1]]) labels=['A','A','B','B'] return group,labelsdef classify0(inX,dataSet,labe原创 2017-10-25 16:16:39 · 219 阅读 · 0 评论 -
np.newaxis
np.newaxis的功能是插入新维度,看下面的例子:a=np.array([1,2,3,4,5])print a.shapeprint a输出结果(5,)[1 2 3 4 5]可以看出a是一个一维数组,x_data=np.linspace(-1,1,300)[:,np.newaxis]a=np.array([1,2,3,4,转载 2017-10-26 19:57:23 · 215 阅读 · 0 评论 -
线性回归
线性回归python的实现过程原创 2017-10-26 20:18:54 · 213 阅读 · 0 评论 -
list('abc') list([''abc']) set('abc') set(['abc'])的区别
原创 2017-11-13 21:32:15 · 763 阅读 · 0 评论 -
python 嵌套字典的定义
python中嵌套字典的定义方法原创 2017-11-04 13:25:02 · 2677 阅读 · 0 评论 -
将列表变成DataFrame形式,使用pd.concat进行合并
m=[1,2,3,4]#m.append(9)p=[4,3,2,5]#会将m变成竖着的一列,并指定列名mm=pd.DataFrame(m,columns=['m'])mm=pd.concat([mm,pd.DataFrame(p,columns=['p'])],axis=1)print(mm)运行结果 m p0 1 41 2 32 3 23 4 5原创 2017-11-04 16:55:42 · 9551 阅读 · 0 评论 -
python df.iterrows()
#函数功能,遍历data,对data中的每行的取值执行加1操作def fun(data, add): for index, row in data.iterrows(): # 获取每行的index、row #index是一个numpy.int64的类型 print('index',index) pri原创 2017-11-14 16:11:14 · 16777 阅读 · 0 评论 -
python pandas 拼接
import pandas as pdimport numpy as np#将两个Series拼接成DataFrame可以使用pd.DataFrame([Series1,Series2])#将两个DataFrame拼接成一个DataFrame可以使用pd.concat([DataFrame1,DataFrame2])#如果两个Series使用pd.concat(axis=0)进行拼接,最后原创 2018-01-22 17:17:37 · 547 阅读 · 0 评论 -
python DataFrame的apply方法
#函数应用和映射import numpy as npimport pandas as pddf=pd.DataFrame(np.random.randn(4,3),columns=list('bde'),index=['utah','ohio','texas','oregon'])print(df) b d eutah -0.451195 -0原创 2018-01-24 21:03:59 · 63294 阅读 · 1 评论 -
train_test_split 数据集划分
python中自带了数据集划分的函数 train_test_split(),通过from sklearn.model_selection import train_test_split导入库函数。train_test_split() 函数需要常用的4个参数:数据集的特征列、数据集的label列、期望划分测试集的大小、划分的随机种子值。返回4个结果分别是:训练集的特征列、测试集的特征列、训练...原创 2018-03-03 22:09:06 · 6535 阅读 · 1 评论 -
python 终止程序
有时当一个条件成立的情况下,需要终止程序,可以使用sys.exit()退出程序。sys.exit()会引发一个异常1.如果这个异常没有被捕获,那么python编译器将会退出,后面的程序将不会执行。2.如果这个异常被捕获(try...except...finally),捕获这个异常可以做一些额外的清理工作,后面的程序还会继续执行。注:0为正常退出,其他数值(1-127)为不正常,可抛异常事件供...原创 2018-07-25 17:38:10 · 15613 阅读 · 0 评论