菜鸟起飞记-CSDN博客

原创 1、数据结构与算法入门

1、数据结构类型数据结构=逻辑结构+存储结构+（在存储结构上的）运算/操作逻辑结构：线性结构（元素之间“一对一”）：线性表、栈和队列非线性结构：树形结构、图形结构存储结构：顺序存储（数组）、链式存储、索引存储和散列存储数据的运算：检索、排序、插入、删除、修改等（运算依赖于存储结构）2、算法时间复杂度和空间复杂度时间频度：T(n)=10...

2018-10-17 21:12:58 233

原创 17、枚举类型与泛型

1、枚举类型1.1、枚举类型可以用来取代以往定义常量的方式，定义语法：public enum Constants{constant_A, constant_B}1.2、枚举类型的成员方法Constants.values() #枚举类型成员以数组的形式返回Constants.valueOf("abc") #把“abc”字符串转换为枚举实例constan...

2018-10-17 15:45:05 373

原创数据分析与挖掘--数据转换

1、数据规范化 1）离差标准化--消除量纲 x1=（x-min)/(max-min)） 2) 标准差标准化 x1=（x-平均值）/标准差2、离散化a=train['month_traffic'].Tb=pd.cut(a.values,100,labels=range(100)) #第二个参数是划分的份数，也可以是不等距划分，...

2018-10-16 16:33:53 402

原创 matplotlib基本用法

1、柱形图（条状图）df.plot(kind='bar')df.plot(kind=;barth')2、列联表count=pd.crosstab(data.sex,data.type)count.plot(kind='bar')count.T.plot(kind='bar')count.T.plot(kind='bar',stacked=True)3、基本画...

2018-10-16 16:29:35 607

原创 Pandas基本用法

一、从csv文件中读取数据 import pandas as pd df=pd.read_csv('e:/dianxin/a.csv') rows=df[0:2] #读取指定的 0-1行 cols=df [ [ 'age' , ' name' ] ] #读取指定列名的列 cols.head() ...

2018-10-08 21:07:01 286

原创 Numpy基本用法

一、一维数组1、数组与列表的异同数组所包含的元素必须为同类型；列表可以包含不同类型的数据，例如list=[1, 2, 'shang']2、数组的创建方式 (1) list=[1,2,3] arr=np.array(list) #通过列表创建数组 (2) arr=np.zeros(3,float) #创建一个包含3个float型0...

2018-10-08 19:39:15 210

原创原型聚类算法

1、K均值算法 step1：从样本中选取k个样本作为原型向量（） Repeat: step2：分别计算样本xj与每个原型向量之间的距离dji，样本xj与哪个向量之间的距离最短，就把该样本归为该原型向量所在的簇，对每一个样本都需要进行归簇过程。 step3：step2完成之后，所有的样本都归为某一簇中，此时再分别计算每一簇中的样本均值向量，...

2018-09-11 17:42:29 2541

原创集成学习方法的简单理解

集成学习方法主要包括两大类：1、boosting集成学习方法 boosting是一种串行式集成学习方法，集成中的个体学习器之间是相互依赖的，首先在初始训练集上训练得到一个模型，然后基于该模型改变下一次训练样本的分布，使那些在上一次的模型中分类错误的训练样本在下一次模型学习的过程中得到重视，从而得到新的模型，多次重复这样的训练过程，得到t个训练模型，最终的分类结果由各个训练模型的加...

2018-09-11 10:54:59 589

基于贝叶斯分类器的分类问题主要是要求得：对于任一样本X，选择能够使得后验概率最大的类标记。一般，后验概率难以直接获得，可以通过条件概率的公式对后验概率进行一个转换：，对于给定样本p(X)与类标记无关，因此只需要基于训练数据集估计。其中，是先验概率，是类条件概率。由于类条件概率涉及到多个属性的联合分布，难以从有限的训练样本中得到，故在朴素贝叶斯分类器中假设“各属性条件独立”，则。到这里，可以得出，由...

2018-09-09 21:11:02 1168