自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(71)
  • 收藏
  • 关注

原创 python获取mysql表头名称

import pymysqlimport pandas as pdimport numpy as npimport datetimedef tp_data(): #获取数据 db=pymysql.connect(host=,port=3306,user=,password=) cursor=db.cursor() cursor.execute() data=cursor.fetchall() data_dict=[] for field in

2020-05-27 14:48:07 534

原创 特征工程之时间处理

def order_timestamp(x): result=datetime.datetime.strptime(x, '%Y-%m-%d %H:%M:%S.0') return resultdef action_timestamp(timeNum): timeStamp = float(timeNum//1000) timeArray = time....

2019-08-07 17:51:35 360

原创 特征工程之标准化

数据和特征决定了机器学习算法的上限,而模型和算法只是不断逼近这个上限而已数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面:数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。...

2019-08-07 17:25:24 216

原创 模型训练及调参

1.模型选择根据二分类问题进行模型训练from sklearn.linear_model import LogisticRegressionimport pandas as pdimport numpy as npfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.linear_model import Lo...

2019-08-06 17:54:43 414

原创 Hadoop应用技术详解

下载地址https://pan.baidu.com/s/1kTDWB6B目录

2019-04-16 09:11:05 126

原创 pycharm连接oracle中jdbc配置

1.配置方式:jdbc:oracle:thin:@//:1521/netgrid2.配置方式:jdbc:oracle:thin:@:1521:netgrid1中当@后边有双斜杠,端口号后边有单斜杠时,用服务名和实例名都可以链接成功,2中@后边没有双斜杠,端口号后边是冒号而不是斜杠的时候只能用实例名,...

2019-03-01 16:33:53 1568

转载 python画小猪佩奇

https://github.com/Monster12138/-/blob/master/小猪佩奇.pyturtleimport turtle as tt.pensize(4)t.hideturtle()t.colormode(255)t.color((255,155,192),"pink")t.setup(840,500)t.speed(10)#鼻子t.pu()t.g...

2019-01-19 14:08:58 271

原创 AlexNet对MNIST分类

一.Alexnet介绍https://blog.csdn.net/MESSI_JAMES/article/details/81384534#t8二.过程介绍一次完整的训练模型和评估模型的过程一般分为 3 个步骤:1.加载数据,2.定义网络模型,3. 训练模型和评估模型。三.代码实现import tensorflow as tf# 1.加载数据# 输入数据from ten...

2018-12-28 14:22:56 1455 2

原创 LSTM对MNIST数据集做分类

https://morvanzhou.github.io/tutorials/machine-learning/tensorflow/5-08-RNN2/1.设置 RNN 的参数RNN 从每张图片的第一行像素读到最后一行, 然后再进行分类判断.(1)导入 MNIST 数据并确定 RNN 的各种参数下载地址: http://yann.lecun.com/exdb/mnist/impo...

2018-12-19 14:13:03 1329

原创 求列表的全子集

def getRealSubSet(fromList,toList): if(len(fromList) <= 1): return for id in range(len(fromList)): print('id',id)------------------------------------>打印看过程 arr = ...

2018-12-13 17:17:31 298

原创 路径优化搜素算法

一.深度优先搜索算法(DFS)1.算法介绍https://zh.wikipedia.org/wiki/深度优先搜索DFS(Depth-First-Search)是一种用于遍历或搜索树或图的算法。沿着树的深度遍历树的节点,尽可能深的搜索树的分支。当节点v的所在边都己被探寻过,搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进行到已发现从源节点可达的所有节点为止。如果还存在未被发现的节点...

2018-11-26 11:42:19 8168 3

原创 Tensorflow拟合函数:y=2x+3

本文代码在jupyter上实现 拟合一个一元一次函数:y=2x+3,具体要求如下: 1、使用Tensorflow框架 2、利用迭代方法,优化器不限 3、给出拟合的参数值 4、把拟合过程可视化1.导入模块import tensorflow as tfimport numpy as npimport matplotlib.pyplot as plt%...

2018-08-19 14:44:37 1256

原创 神经网路反向传播(BP)算法原理

一.BP算法简介 BP算法的学习过程由正(前)向传播过程和反向传播过程组成。1.正向传播 将训练集数据输入到ANN的输入层,经过隐藏层,最后达到输出层并输出结果;2.反向传播 由于ANN的输出结果与实际结果有误差,则计算估计值与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层。 在反向传播的过程中,根据误差调整各种参数的值;不断迭...

2018-08-16 21:50:49 521

原创 python基于神经网络实现人脸识别

一.项目简介1.数据需要数据QQ联系:1209028652 数据集:总共数据集由两部分组成:他人脸图片集及我自己的部分图片 自己图片目录:face_recog/my_faces 他人图片目录:face_recog/other_faces 我的测试图片目录:face_recog/test_faces2.人脸识别 获取数据后,第一件事就对对图片进行处...

2018-08-15 14:52:48 6232 16

原创 深度神经网络优化策略汇总

接下来介绍卷积神经网络的各种改进措施,其中经典网络的改进措施已经在前面各个网络中介绍。针对卷积神经网络的改进措施主要在以下几个方面:卷积层,池化层,激活函数,损失函数,网络结构,正则化技术等方面。优化算法对网络的训练至关重要,在这里我们单独列出来了。1.卷积层 卷积层的改进有以下几种:卷积核小型化,1x1 卷积,Network In Network,Inception机制,卷积分解(F...

2018-08-10 16:46:57 1763

转载 多种类型RNN

1.RNNhttps://zhuanlan.zhihu.com/p/36101196?utm_source=qq&utm_medium=social&utm_oi=761548970097917952 (1)我们从基础的神经网络中知道,神经网络包含输入层、隐层、输出层,通过激活函数控制输出,层与层之间通过权值连接。激活函数是事先确定好的,那么神经网络模型

2018-08-09 18:28:07 2153

原创 线性回归

1.线性模型流程 2.模型假设 1、模型设置,选择何种回归方法、如何选变量、变量以何种形式放入模型(根据理论、看散点图); 2、解释变量和扰动项不能相关(根据理论或常识判断,无法检验); 1、2保证模型是正确的 3、解释变量之间不能强线性相关(膨胀系数); 4、扰动项独立同分布;(异方差检验、DW检验) 5、扰动项服从正态分布 (QQ检验)...

2018-08-06 15:40:11 177

转载 Apriori算法与FP-Tree算法

1.Apriorihttps://www.cnblogs.com/pinard/p/6293298.html Apriori算法是常用的用于挖掘出数据关联规则的算法,它用来找出数据值中频繁出现的数据集合,找出这些集合的模式有助于我们做一些决策。比如在常见的超市购物数据集,或者电商的网购数据集中,如果我们找到了频繁出现的数据集,那么对于超市,我们可以优化产品的位置摆放,对于电商,我们可以...

2018-08-05 17:45:48 768

原创 CNN

一.1X1X卷积核 3X3卷积核 1X1 卷积核 一般1×1的卷积核本质上并没有对图像做什么聚合操作,以为就是同一个w去乘以原图像上的每一个像素点,相当于做了一个缩放(1)卷积核作用 1x1的卷积核可以进行降维或者升维,也就是通过控制卷积核(通道数)实现。 控制通道数可以实现跨通道的交互和信息整合。这个可以帮助减少模型参数,也可以对不...

2018-08-03 11:28:29 1235

原创 逻辑回归

1.逻辑回归参考http://www.cnblogs.com/ModifyRong/p/7739955.html(1)介绍 在 线性回归模型中,输出一般是连续的,例如y=f(x)=ax+b,对于每一个输入的x,都有一个对应的y输出。模型的定义域和值域都可以是[-∞, +∞]。 但是对于 逻辑回归,输入可以是连续的[-∞, +∞],但输出一般是离散的,即只有有限多个输出值。例如...

2018-08-02 20:26:51 227

原创 奇妙的数学证明!!!!

上学的时候怎么就没有想过这个问题。。。。

2018-07-31 22:59:34 359

原创 马尔科夫、条件随机场、激活函数

1.X8的马尔科夫毯 !(1)有向图转换成无向图(UGM) (2)马尔科夫 三个性质等价 (3)团和最大团 深度学习中的激活函数导引 参考https://zhuanlan.zhihu.com/p/221420131激活函数的定义与作用(1)定义 在人工神经网络中,...

2018-07-31 18:24:22 315

原创 大数据分析Hadoop及Python实现

大数据 1.分布式: 主节点(Master)、从节点(Slaves) 2.集群(多台机器) 同时存储数据,并行处理数据 3.分布式计算 核心思想:分而治之思想一.Hadoop1.Apache Hadoop 介绍: 对多个服务器中分布式并行处理数据的一种工具,可以无限的扩大数据规模,以此来解决大数据规模。 特点;...

2018-07-23 23:03:10 9889 1

转载 常见的集中优化方法

1.梯度下降以下均参考https://www.cnblogs.com/shixiangwan/p/7532830.html(1)简介 梯度下降法是最早最简单,也是最为常用的最优化方法。梯度下降法实现简单,当目标函数是凸函数时,梯度下降法的解是全局解。一般情况下,其解不保证是全局最优解,梯度下降法的速度也未必是最快的。梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向,因为该方向...

2018-07-17 20:00:30 722

原创 距离度量

1.闵可夫斯基距离 闵氏距离的缺点: (1)将各个分量的量纲(scale),也就是“单位”相同的看待了; (2)未考虑各个分量的分布(期望,方差等)可能是不同的。2.马氏距离 马氏距离是基于样本分布的一种距离。物理意义就是在规范化的主成分空间中的欧氏距离。所谓规范化的主成分空间就是利用主成分分析对一些数据进行主成分分解。再对所有主成分分解轴做归一化...

2018-07-15 11:32:46 172

原创 集成学习

一.集成算法综述参考https://blog.csdn.net/ruiyiin/article/details/77114072 1. 集成算法是一种优化手段或者策略,它通常是结合多个简单的弱机器学习算法,去做更可靠的决策。 2.集成模型是一种能在各种的机器学习任务上提高准确率的强有力技术,集成算法往往是很多数据竞赛关键的一步,能够很好地提升算法的性能。 3.现实生...

2018-07-13 18:21:40 2222

原创 EM算法

1.EM简介 EM算法是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计,EM算法的每次迭代由两部分组成: E步:求期望, M步:求极大 该算法又叫期望极大算法,简称EM算法。 2.无偏估计—->标准差 3.协方差(1)协方差公式 (2)协方差计算过程 协方差矩阵是计算不同维度间...

2018-07-12 23:13:42 228

原创 PageRanks算法

一.算法原理 (1)如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是PageRank值会相对较高 (2)如果一个PageRank值很高的网页链接到一个其他的网页,那么被链接到的网页PageRank值也会相应提高。 每个球代表一个网页;球的大小反应了网页的pagerank值的大小. 指向网页B和网页E的链接很多,所以B和E的pagerank值...

2018-07-10 23:04:42 445

原创 SVM

一.概念 寻找到一个超平面使样本分成两类,并且间隔最大。而我们求得的w就代表着我们需要寻找的超平面的系数。 与超平面的距离表示分类的确信度,距离越远则分类正确的确信度越高 1.多重超平面 B是最好地分离这两个类的线 2. 多分离超平面 要选择尽可能远离每个类别的数据点的超平面 3.超平面方程 超平面的一般...

2018-07-06 15:06:37 246

原创 k-means算法

一.k-means算法1.概念 事先确定常数K,常数K意味着最终的聚类类别数,首先随机选定初始点为质心,并通过计算每一个样本与质心之间的相似度(这里为欧式距离),将样本点归到最相似的类中,接着,重新计算每个类的质心(即为类中心),重复这样的过程,知道质心不再改变,最终就确定了每个样本所属的类别以及每个类的质心。 由于每次都要计算所有的样本与每一个质心之间的相似度,故在大规...

2018-07-05 21:24:36 309

原创 贝叶斯算法

一.概率基础知识1.条件概率 是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B条件下A的概率”。 P(A|B) = P(B|A) * P(A) / P(B)例子 一起汽车撞人逃跑事件,已知只有两种颜色的车,比例为蓝色15% 绿色85%,目击者指证是蓝车,但根据现场分析,当时那种条件目击者看正确车的颜色的可能性是80%...

2018-07-05 17:19:54 168

原创 《算法图解》

一.算法简介1.二分法 对于区间[a,b]上连续不断且f(a)·f(b)<0的函数y=f(x),通过不断地把函数f(x)的零点所在的区间一分为二,使区间的两个端点逐步逼近零点,进而得到零点近似值的方法叫二分法。 当数据量很大适宜采用该方法。采用二分法查找时,数据需是排好序的。时间复杂度:O(log(n))例子:猜一个在1~100之间的数字。 你的目...

2018-07-04 22:44:12 316

原创 决策树

一.概念 决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树二.划分依据1.熵 (1)当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的地方熵值越大。这是从信息的完整性上进行的描述。 (2)当数据量一致时,系统越有序,熵值越低;系统越混乱...

2018-07-04 19:26:43 184

原创 matplotlib扩展篇—pyecharts绘图

一.pyecharts介绍.简介 pyecharts 是一个用于生成 Echarts 图表的类库。Echarts是百度开源的一个数据可视化 JS 库。 用 Echarts 生成的图可视化效果非常棒,pyecharts 是为了与 Python 进行对接,方便在 Python 中直接使用数据生成图。.官网 官网:http://pyecharts.org GitHu...

2018-06-28 23:15:56 3570

原创 matplotlib—三种方法加载数据文件进行可视化

1.csv获取数据(1)导入模块from matplotlib import pyplot as pltimport numpy as npimport csv#用来正常显示中文标签 plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示负号 plt.rcParams['axes.unicode_minus']=False...

2018-06-28 21:38:08 5810

原创 pandas+matplotlib绘图

1.用Series进行绘图用series的行索引作为x轴,值作为数据 from matplotlib import pyplot as pltimport numpy as npfrom pandas import DataFrame,Seriesimport pandas as pd#用来正常显示中文标签 plt.rcParams['font.sans-serif']=[...

2018-06-28 10:22:52 1916

原创 pandas高级篇—apply

1.applyapply会将待处理的对象拆分成多个片段,然后对各片段调用传入的函数,最后尝试将各片段组合到一起2.head()(1)默认查找前五条数据,head(n)查找前n条数据 (2)定义函数,(函数名为top)查找前n条数据 (3)apply()——–>分别求出抽烟和不抽烟的客户中消费占比排在前五的客户 (4)如果传给apply的函数能够接受其他参数或...

2018-06-27 13:27:40 10890

原创 matplotlib—高级篇

一.深入了解柱状图1.创建一个画板plt.figure(1)2.为画板划分出多个Axesax1=plt.subplot(111) #plt.subplot(222)表示将画板分成2行2列,即四块,然后取第一块3.数据准备data=np.array([15,20,18,25]) #y轴数据width=0.5 #柱状图的宽...

2018-06-26 19:02:25 561

原创 matplotlib—画正弦、余弦函数图

一.导入模块import matplotlib.pyplot as pltimport numpy as npplt.rcParams['font.sans-serif']=['SimHei'] # 用于正常显示中文标签plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号二.创建数据1.从-pi到pi平均取256个点...

2018-06-26 18:19:56 8985 3

原创 matplotlib—创建画板

一.导入模块import matplotlib.pyplot as plt# 用于正常显示中文标签plt.rcParams['font.sans-serif']=['SimHei']# 用来正常显示负号plt.rcParams['axes.unicode_minus']=False二.创建画板步骤如果只画一个图表,不需要第一步,即不需要plt.figure(figsize=...

2018-06-26 17:33:41 1134

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除