自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(128)
  • 收藏
  • 关注

转载 R语言高级算法之人工神经网络(Artificial Neural Network)

1.人工神经网络原理分析: 神经网络是一种运算模型,由大量的节点(或称神经元)和之间的相互连接构成,每个节点代表一种特定的输出函数,称为激励函数(activation function).每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆.网...

2017-05-08 23:22:00 1050

转载 数据算法之二叉树平衡(BinTreeNode Rotate)的Java实现

  本文的代码来自于《数据结构与算法(JAVA语言版)》,是笔者在网上找到的资料,非正式出刊版物。笔者对代码一些比较难以理解的部分添加了注释和图解,欢迎大家来讨论。   二叉树平衡的基本思想是通过旋转使得平衡因子的绝对值小于1。   如图所示: 输入:失衡的结点...

2017-05-08 23:22:00 130

转载 Pandas 数据框增、删、改、查、去重、抽样基本操作

总括 pandas的索引函数主要有三种: loc 标签索引,行和列的名称 iloc 整型索引(绝对位置索引),绝对意义上的几行几列,起始索引为0 ix 是 iloc 和 loc的合体 at是loc的快捷方式 iat是iloc的快捷方式 建立测试数据集: import...

2017-05-08 23:22:00 131

转载 Pandas 分组groupby

创建测试数据框 import pandas as pddf = pd.DataFrame({'a': [1, 2, 3, 4], 'b': [5, 6, 7,8],'c': ['x', 'y', 'x','y'],'d':["one","two","three","two"]})...

2017-05-08 23:22:00 138

转载 Python numpy基础知识

1.基础知识 NumPy的主要对象是多维数组。它是由相同元素(通常是数字)组成的,通过正整数元组(tuple)作为索引的表格。 在数组中,纬度(dimensional)被称为轴(axis),轴的数量被称为级(rank),如下面这个数组,它有两个轴(axis),第一个纬度(dimens...

2017-05-08 23:22:00 90

转载 matplotlib scale 刻度

1.5. 对数或者其他非线性坐标轴 使用plt.xscal()来改变坐标轴的刻度 import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.ticker import NullFormatter # use...

2017-05-08 23:22:00 1201

转载 Excel字符串截取(left&right&mid)

  Excel中字符串截取函数主要有left、right和mid 1.left函数   在字符串“wang”中,从左起截取2个字符,结果是“wa”。 2.right函数   在字符串“wang”中,从右起截取2个字符,结果是“ng”。 3.mid函数 ...

2017-05-08 23:22:00 536

转载 数据库设计

1.相关概念 (1)实体(entity):我们用数据库要描述的对象,可以是具体的,也可以是抽象的。比如“一个学生”、“一本书”、“一门课”等等;当然也可以是“学生与老师的关系”。 (2)字段(fields):就是我们看到的列(column),代表了我们要描述实体的属性。 (3)记录(re...

2017-05-08 23:22:00 70

转载 Pandas 文本数据方法 find( ) rfind( ) index( ) rindex( )

Series.str.find(sub, start=0, end=None)????????,???? Series.str.rfind(sub, start=0, end=None)????????,????Series.str.index(sub, start=0, end=No...

2017-05-08 23:22:00 2229

转载 SQL去除重复数据

  SQL中去除完全相同数据可以用distinct关键字,任意字段去重可以用group by,以下面的数据表为例。 id name score 1 小王 51 ...

2017-05-08 23:22:00 154

转载 Pandas 文本数据方法 count( )

Series.str.count(pat, flags=0, **kwargs)查看字符在各个元素中出现的次数 参数: pat : 字符串或正则 flags : 整型 Returns: 序列Series/索引Index import pandas as pds = pd....

2017-05-08 23:22:00 700

转载 SQL在线练习

  介绍一款好用的在线SQL语句练习工具,详情见下图。软件的地址是:http://sqlfiddle.com/    转载于:https://my.oschina.net/...

2017-05-08 23:22:00 164

转载 Pandas GroupBy 分组(分割-应用-组合)

简介 分组(group by)一般是指三个过程 分割(Splitting)将数据按照某个标准分组 应用(Applying)对每个分组分别使用函数 组合(Combining)将结果组合成数据框 groupby对象 import pandas as ...

2017-05-08 23:22:00 596

转载 SQL筛选重复数据

  在《SQL去除重复数据》一文中我们讲了如何去除重复数据,在工作中我们有时还需要筛选重复的数据,进行进一步比对。如下表,我们要筛选出“姓名”相同的数据。 id name score 1 ...

2017-05-08 23:22:00 345

转载 pandas 股票分析图

获取APPL,MSFT,GOOG的股票数据 stocks = pd.DataFrame({"Date": apple["Date"], "AAPL": apple["Adj Close"], "MSFT"...

2017-05-08 23:21:00 103

转载 Python回归 岭回归(Ridge Regression)

岭回归是一种专门用于共线性数据分析的有偏估计回归方法,实质上时改良的最小二乘估计法,通过放弃最小二乘法的无偏性(在反复抽样的情况下,样本均值的集合的期望等于总体均值),以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对共线性问题和病态数据的拟合要强于最小二乘法经...

2017-05-08 23:21:00 809

转载 Excel数据计数(count)

  Excel中用“数据透视表”实现总体的计数还有“count”类函数实现部分技术。 1.1选择数据,插入数据透视表 1.2选择要计数的字段 2.count类函数   count(range) 计算所选区域数字单元格的个数   counta(range)...

2017-05-08 23:21:00 270

转载 R语言聚类算法之k均值聚类(K-means)

1.原理解析: 随机选取k(预设类别数)个样本作为起始中心点,将其余样本归入相似度最高中心点所在簇(cluster),再确立当前簇中样本坐标的均值为新的中心点,一次循环迭代下去,直至所有样本所属类别不再变动. 2.在R语言中的应用 在k均值聚类中我们应用到了stats包(R语言...

2017-05-08 23:21:00 1440

转载 python matplotlib库

1 快速入门 2 基础数据对象primitives 2.1 Python matplotlib Line2D对象 3 容器对象containers 2.1 Axes Subplot子图讲解 2.2 matplotlib text 文字处理 2.3 matplotlib sca...

2017-05-08 23:21:00 70

转载 Pandas 文本数据方法 contains()

Series.str.contains(pat, case=True, flags=0, na=nan, regex=True)是否包含查找的字符串 参数: pat : 字符串/正则表达式 case : 布尔值, 默认为True.如果为True则匹配敏感 flags : 整型,默...

2017-05-08 23:21:00 1026

转载 Java连接字符(concat)

  Java中主要有两种方法连接字符串。 1.concat方法   public String concat(String str) 将String str连接到原本的字符串后面,返回值是字符串 String str = "wang";str.concat("xin");//返...

2017-05-08 23:21:00 213

转载 R语言读写CSV

  为了保证数据的通用性(能在各种软件中传输),建议大家同意使用CSV文件俩保存数据。   逗号分隔值(Comma-Separated Values,CSV),要点有: (1)字段之间以,(英文逗号)间隔 (2)数据行之间使用\r\n分隔   R语言   读入   data...

2017-05-08 23:21:00 338

转载 R语言高级算法之支持向量机(Support Vector Machine)

1.支持向量机原理解析 机器学习本质上就是一种对所研究问题真实模型的逼近,通常会假设一个近似模型,然后根据适当的原理将这个近似模型不断逼近真实模型.结构风险就是指近似模型与真实模型之间的差距. 我们可以用某些方法来逼近真实模型,最直观的想法就是使用分类器在样本数据上的分类结果与真实结...

2017-05-08 23:21:00 899

转载 数据可视化之单属性(字段)

1.单属性   单属性是指一个观测值只有一个属性列,比如下图展示的一个“学生”对应一个“语文成绩”,又比如“一年”对应一个“盈利总额”。 1.1.柱状图 1.2.条形图 1.3.散点图 1.4.折线图 2.无主体属性   2....

2017-05-08 23:21:00 342

转载 SQL数据计数(count)

  SQL中计数要使用count语法与as语法,例如将下表的name字段计数。 name core 小王 51 小魏 61 ...

2017-05-08 23:21:00 632

转载 R语言聚类算法之系谱聚类(Hierarchical Method)

1.原理解析: 不需要先设定类别数K,这是因为它每次迭代过程仅将距离最近的两个样本/簇聚为一类,其运作过程将自然得到k=1至k=n个类别的聚类结果。 2.在R语言中的应用 系谱聚类(Hierarchical Method)主要运用到了stats包(R语言内置包)中的hclust...

2017-05-08 23:21:00 556

转载 Java字符串分割(split)

  Java中分割字符串的函数是split。   public String[] split(String regex,int limit),用String regex来分割字符串,返回值是字符串数组 String word = "小王,小魏,小明,小红";String[] wo...

2017-05-08 23:21:00 122

转载 Pandas 文本数据方法 split()rsplit()

split()正序分割列;rsplit()逆序分割列 Series.str.split(pat=None, n=-1, expand=False) 参数: pat : 字符串,默认使用空白分割. n : 整型,默认为-1,既使用所有的分割点分割 expand : 布尔值,默认为...

2017-05-08 23:21:00 72

转载 Pandas 文本数据方法 startswith( ) endwith( )

Series.str.startswith(pat, na=nan)查看元素是否以…开头 参数: pat : 字符串 na : 布尔值 返回: 序列Series/向量array Series.str.endswith(pat, na=nan)查看元素是否以…结尾 参数: ...

2017-05-08 23:21:00 470

转载 R语言分类算法之随机森林(Random Forest)

1.原理分析: 随机森林是通过自助法(boot-strap)重采样技术,从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练集样本集合,然后根据自助样本集生成k个决策树组成的随机森林,新数据的分类结果按照决策树投票多少形成的分数而定. 通俗的理解为由许多棵决策树组成的森林,而...

2017-05-08 23:21:00 619

转载 python 回归算法

1 广义线性模型(Generalized Linear Models) 1.1 普通最小二乘法(Ordinary Least Squares) 1.2 岭回归(Ridge Regression) ...

2017-05-08 23:21:00 91

转载 R语言分类算法之集成学习(Bootstrap Aggregating)

1.集成学习(Bootstrap Aggregating)原理分析: Bagging是Bootstrap Aggregating的缩写,简单来说,就是通过使用boostrap抽样得到若干不同的训练集,以这些训练集分别建立模型,即得到一系列的基分类器,这些分类器由于来自不同的训练样本,他...

2017-05-08 23:21:00 369

转载 SQL数据层面操作(DML)

  DML(data manipulation language): 它们是SELECT、UPDATE、INSERT、DELETE,用来对数据进行操作。   增   insert into 表名 values(值);   insert into 表名 set 字段 = 值;   ...

2017-05-08 23:21:00 63

转载 字符集ASCII、GBK、UNICODE、UTF在储存字符时的区别

  ASCII编码(American Standard Code for Information Interchange,美国信息互换标准代码),使用127个8进制字节表示英文和半角字符。   GBK (Guo Biao Kuozhan,国标扩展),当在ASCII 码的范围时,就用一个...

2017-05-08 23:21:00 67

转载 R语言聚类算法之密度聚类(Density-based Methods)

1.原理解析: 1.从数据集中选择一个未处理的样本点 2.以1为圆心,做半径为E的圆,由于圆内圈入点的个数为3,满足密度阈值Minpts,因此称点1为核心对象(黑色实心圆点),且将圈内的4个点形成一个簇,其中点1直接密度可达周围的3个灰色实心原点; 3.重复步骤2若干次,其中点1直...

2017-05-08 23:21:00 655

转载 Pandas 文本数据方法 slice( )

Series.str.slice(start=None, stop=None, step=None)按下标截取字符串 参数: start : 整型或缺省 stop : 整型或缺省 step : 整型或缺省 Returns: 序列Series/索引Index Series....

2017-05-08 23:21:00 447

转载 Pandas 文本数据方法 cat()

cat()连接字符串 Series.str.cat(others=None, sep=None, na_rep=None) 参数: others : 列表或复合列表,默认为None,如果为None则连接本身的元素 sep : 字符串 或者None,默认为None na_rep ...

2017-05-08 23:21:00 296

转载 Pandas将列表(List)转换为数据框(Dataframe)

Python中将列表转换成为数据框有两种情况:第一种是两个不同列表转换成一个数据框,第二种是一个包含不同子列表的列表转换成为数据框。 第一种:两个不同列表转换成为数据框 from pandas.core.frame import DataFramea=[1,2,3,4]#列表a...

2017-05-08 23:21:00 453

转载 Java字符串替换(replace)

  Java中字符串替换函数主要有三种replace、replaceFirst和replaceAll 1.replace函数   public String replace(char oldChar,char newChar)替换字符串中所有的oldChar为newChar,返回值是...

2017-05-08 23:21:00 383

转载 数据分析的一般过程

1.数据预处理 主要包括了重复值处理、缺省值处理、抽样处理、训练集和测试集处理。 2.应用模型 根据要求选择相应的数学模型进行分析。这里主要包括了分类算法,聚类算法,关联分析,回归分析4大类型的模型应用。 3.观察处理结果 在套用相应的数学模型之后会产生相应的处理结果,比如在回...

2017-05-08 23:21:00 671

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除