自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

赖德发的博客

征途路上,星辰大海,交流微信:laidefa

原创 【ML--07】机器学习知识点及其算法实现sklearn

以下10种算法是现在最流行的机器学习算法(含python代码),几乎可以解决绝大部分的问题。1.线性回归 Linear Regression线性回归是利用连续性变量来估计实际数值(例如房价,呼叫次数和总销售额等)。我们通过线性回归算法找出自变量和因变量间的最佳线性关系,图形上可以确定一条最佳直线。...

2017-07-31 16:59:53

阅读数 499

评论数 0

原创 【DL--10】AI我深度上,TensorFlow安装教程

什么是TensorFlow?TensorFlow 是谷歌开发的第二个机器学习框架,可用于设计、构建和训练深度学习模型。你可以使用 TensorFlow 库进行数值计算,这本身似乎并没有什么特别的,但这些计算是使用数据流图完成的。在这些图中,节点表示数学运算,而边则表示数据——通常是多维的数组或张量...

2017-07-31 15:27:01

阅读数 331

评论数 0

原创 【python 图像处理】Python图像处理模块pillow子模块Image用法精要

Image是pillow库中一个非常重要的模块,提供了大量用于图像处理的方法。使用该模块时,首先需要导入。>>> from PIL import Image接下来,我们通过几个示例来简单演示一下这个模块的用法。 (1)打开图像文件>>> im = Image....

2017-07-31 11:15:57

阅读数 1166

评论数 0

原创 【python 图像处理】Python 图像处理库 Pillow 入门

Pillow是Python里的图像处理库(PIL:Python Image Library),提供了了广泛的文件格式支持,强大的图像处理能力,主要包括图像储存、图像显示、格式转换以及基本的图像处理操作等。1)使用 Image 类PIL最重要的类是 Image class, 你可以通过多种方法创建这...

2017-07-31 09:43:43

阅读数 775

评论数 0

原创 【DL--09】神经网络,需要知道的数学公式

推导数学公式:

2017-07-30 15:48:45

阅读数 339

评论数 0

原创 【mysql 错误】1209 - The MySQL server is running with the --read-only option so it cannot execute this s

1209 - The MySQL server is running with the–read-only option so it cannot execute this statement一般这个错误有两种原因:1.连到从库了。从库一般设置为只读。2.主库的read_only参数被修改为1为了...

2017-07-30 10:33:25

阅读数 6466

评论数 0

原创 【ML--06】主成分分析PCA

一、什么是主成分? 主成分分析(Principal Component Analysis, PCA)在做的事情:找到原始变量的线性组合,也就是所谓的主成分,使得组合后得到变量的方差最大化。二、主成分分析与因子分析有什么区别? 因子分析是把变量表示成各公因子的线性组合; 主成分分析中则是把主成...

2017-07-28 19:54:59

阅读数 442

评论数 0

原创 【DL--08】深度学习 用于处理图像的CNN

什么是CNN Covolutional Neural Network,卷积神经网络 卷积是指将一些数线性加权,卷起来一维卷积: ● 三个数a1、a2、a3 ● 权值w1、w2、w3 ● 卷起来,w1*a1+w2*a2+w3*a3 ● 卷积窗口大小为3二维卷积: ●...

2017-07-28 15:44:03

阅读数 320

评论数 0

原创 【python 图像压缩算法】opencv图像压缩

插值方法: CV_INTER_NN - 最近邻插值, CV_INTER_LINEAR - 双线性插值 (缺省使用) CV_INTER_AREA - 使用象素关系重采样。当图像缩小时候,该方法可以避免波纹出现。当图像放大时,类似于 CV_INTER_NN 方法.. CV_INTER_CUBI...

2017-07-24 18:17:39

阅读数 11564

评论数 1

原创 【python 第三方包的安装】第三方包下载网站

下载网址 http://www.lfd.uci.edu/~gohlke/pythonlibs/有了这个以后,要用哪个库,再也不用到处找过来找过去了。而且都是编译好的whl文件,简单粗暴!

2017-07-22 22:38:43

阅读数 987

评论数 0

转载 【数据科学】总结 --数据工作的科普

一、数据获取1.爬虫:这个不用多解释了,就是从网页上爬取数据,比如爬取一个京东的三级品类的数据、爬拉勾网的职位信息数据。这个主要是网络编程,细节点主要是header、cookie、get/post请求、失败重试、验证码、重定向等,总之除了把数据从网页上抽取出来就是如何伪装自己是一个“人”在请求而不...

2017-07-19 17:52:49

阅读数 390

评论数 0

原创 【excel 函数】常用的Excel函数

函数可以被我们想象成一个盒子,专门负责将输入转换成输出,不同的函数对应不同的输出。清洗处理类:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text关联匹配类:lookup、vlookup、index...

2017-07-19 11:57:10

阅读数 615

评论数 0

原创 【mysql 数据迁移】mysql中同一服务器,要从一个数据库里复制一个表到另一个数据库

mysql 同一个服务中,两个数据库A,Bcreate table b.table1 as select * from a.table1

2017-07-19 11:16:03

阅读数 1139

评论数 0

原创 【mysql 数据迁移】 mysql 把数据库从一个服务器复制到另一个服务器

1,把sampdb数据库从本地主机复制到远程主机121.121.121.121上的mysql服务上去。 mysqldump –databases sampdb | mysql -h 121.121.121.121 2,如果本地主机无法访问远程mysql服务器但能够通过登录远程主机的办法访问它,...

2017-07-19 10:53:10

阅读数 4612

评论数 0

原创 【R语言 数据分析】多重共线性问题

1、什么是多重共线性? 多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。2、多重共线性对回归模型的影响@1、完全共线性下参数估计量不存在 @2、近似共线性下OLS估计量非有效 @3、参数估计量经...

2017-07-18 09:33:27

阅读数 7804

评论数 2

原创 【Hadoop--04】Hadoop读文件

1、客户端向NameNode发送读取请求2、NameNode返回文件的所有block和这些block所在的DataNodes(包括复制节点)3、客户端直接从DataNode中读取数据,如果该DataNode读取失败(DataNode失效或校验码不对),则从复制节点中读取(如果读取的数据就在本机,则...

2017-07-18 09:23:51

阅读数 589

评论数 0

原创 【Hadoop--03】HDFS写文件

1.客户端将文件写入本地磁盘的N#x4E34;时文件中2.当临时文件大小达到一个block大小时,HDFS client通知NameNode,申请写入文件3.NameNode在HDFS的文件系统中创建一个文件,并把该block id和要写入的DataNode的列表返回给客户端4.客户端收到这些信息...

2017-07-17 17:48:45

阅读数 564

评论数 0

原创 【Hadoop--02】Hadoop HDFS是什么?

Hadoop - HDFS简介 Hadoop Distributed File System,分布式文件系统架构Block数据&##x5757;基本存储单位,一般大小为64M(配置大的块主要是因为:1)减少搜寻时间,一般硬盘传输速率比寻道时间要快,大的块可以减少寻道时间;2)减少管理块的...

2017-07-17 17:36:04

阅读数 315

评论数 0

原创 【Hadoop--01】Hadoop简介

Hadoop可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点特别适合写一次,读多次的场景。适合 大规模数据 流式数据(写一次,读多次) 商用硬件(一般硬件)不适合 低延时的数据访问 大量的小文件 频繁修改文件(基本就是写1次)Hadoop架构HDFS: 分布式文件存储 ...

2017-07-17 17:19:43

阅读数 2319

评论数 0

原创 【DL--07】深度学习基本概念—epochs

epochs 一个epoch是指把所有训练数据完整的过一遍 真的不是很想解释这个词,但是新手问的还挺多的…… 简单说,epochs指的就是训练过程中数据将被“轮”多少次,就这样。

2017-07-17 16:39:16

阅读数 2658

评论数 0

原创 【DL--06】深度学习基本概念—batch

batch这个概念与Keras无关,老实讲不应该出现在这里的,但是因为它频繁出现,而且不了解这个技术的话看函数说明会很头痛,这里还是简单说一下。深度学习的优化算法,说白了就是梯度下降。每次的参数更新有两种方式。第一种,遍历全部数据集算一次损失函数,然后算函数对各个参数的梯度,更新梯度。这种方法每更...

2017-07-17 15:54:14

阅读数 2042

评论数 0

原创 【DL--05】深度学习基本概念—函数式模型

函数式模型函数式模型算是本文档比较原创的词汇了,所以这里要说一下在Keras 0.x中,模型其实有两种,一种叫Sequential,称为序贯模型,也就是单输入单输出,一条路通到底,层与层之间只有相邻关系,跨层连接统统没有。这种模型编译速度快,操作上也比较简单。第二种模型称为Graph,即图模型,这...

2017-07-17 15:44:32

阅读数 1867

评论数 0

原创 【DL--04】深度学习基本概念—data_format

data_format这是一个无可奈何的问题,在如何表示一组彩色图片的问题上,Theano和TensorFlow发生了分歧,’th’模式,也即Theano模式会把100张RGB三通道的16×32(高为16宽为32)彩色图表示为下面这种形式(100,3,16,32),Caffe采取的也是这种方式。第...

2017-07-17 15:03:38

阅读数 1192

评论数 0

原创 【DL--03】深度学习基本概念—张量

张量 TensorFlow中的中心数据单位是张量。张量由一组成形为任意数量的数组的原始值组成。张量的等级是其维数。以下是张量的一些例子: 3 # a rank 0 tensor; this is a scalar with shape [] [1. ,2., 3.] # a rank 1 ...

2017-07-17 14:54:58

阅读数 4060

评论数 1

原创 【DL--02】深度学习基本概念--符号计算

符号计算Keras的底层库使用Theano或TensorFlow,这两个库也称为Keras的后端。无论是Theano还是TensorFlow,都是一个“符号式”的库。因此,这也使得Keras的编程与传统的Python代码有所差别。笼统的说,符号主义的计算首先定义各种变量,然后建立一个“计算图”,计...

2017-07-17 14:44:31

阅读数 769

评论数 0

原创 【DL--01】深度学习 揭开DL的神秘面纱

什么是深度学习 深度学习=深度神经网络+机器学习 人工智能 > 机器学习 > 表示学习 > 深度学习神经元模型 输入信号、加权求和、加偏置、激活函数、输出 全连接层 输入信号、输入层、隐层(多个神经元)、输出层(多个输出,每个对应一个分类)、目标函数(交叉熵) 待...

2017-07-17 10:40:22

阅读数 3841

评论数 0

原创 【ML--05】第五课 如何做特征工程和特征选择

一、如何做特征工程? 1.排序特征:基于7W原始数据,对数值特征排序,得到1045维排序特征 2. 离散特征:将排序特征区间化(等值区间化、等量区间化),比如采用等量区间化为1-10,得到1045维离散特征 3. 计数特征:统计每一行中,离散特征1-10的个数,得到10维计数特征 4. 类...

2017-07-14 10:27:07

阅读数 2100

评论数 0

原创 【ML--04】第四课 logistic回归

1、什么是逻辑回归?当要预测的y值不是连续的实数(连续变量),而是定性变量(离散变量),例如某个客户是否购买某件商品,这时线性回归模型不能直接作用,我们就需要用到logistic模型。逻辑回归是一种分类的算法,它用给定的输入变量(X)来预测二元的结果(Y)(1/0,是/不是,真/假)。我们一般用虚...

2017-07-12 11:06:49

阅读数 1886

评论数 0

原创 【python 爬虫】python淘宝爬虫实战(selenum+phontomjs)

1、需求目标 : 进去淘宝页面,搜索耐克关键词,抓取 商品的标题,链接,价格,城市,旺旺号,付款人数,进去第二层,抓取商品的销售量,款号等。2、结果展示 3、源代码# encoding: utf-8 import sys reload(sys) sys.setdefaultencodi...

2017-07-11 14:16:55

阅读数 3548

评论数 0

原创 【hadoop Sqoop】Sqoop从mysql导数据到hdfs

1.下载sqoop安装包wget https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz2.解压安装包tar -xzvf /sqoop-1.4.6.bin...

2017-07-07 11:18:52

阅读数 858

评论数 0

原创 【Hive Hbase】Hbase与Hive的区别与联系

问题导读:Hive与Hbase的底层存储是什么? hive是产生的原因是什么? habase是为了弥补hadoop的什么缺陷?共同点: 1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别: 2.Hive是建立在Hadoop之上为了减少MapReduce...

2017-07-07 11:11:02

阅读数 1574

评论数 0

原创 【hadoop Sqoop】数据迁移工具 sqoop 入门

数据迁移工具sqoop入门首先,先简单说明下sqoop是什么,sqoop 即 SQL to Hadoop ,是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具,充分利用MapReduce并行特点以批处理的方式加快数据传输,发展至今主要演化了二大版本,sqoop1和sqoop2。 那...

2017-07-07 10:57:41

阅读数 1870

评论数 0

原创 【hadoop Sqoop】Sqoop从mysql导数据到hive

1、概述Sqoop是一个实现在关系型数据库和Hive进行数据交换的工具。 主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS...

2017-07-07 10:51:42

阅读数 459

评论数 0

原创 【hadoop Sqoop】Sqoop 1.4.6 安装

第一步:下载Sqoop选择 (sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz) http://apache.fayea.com/sqoop/1.4.6/第二步:拷贝至安装目录并解压缩tar zxf sqoop-1.4.6.bin__hadoop-2.0.4-...

2017-07-07 10:35:47

阅读数 307

评论数 0

原创 【ML--03】 第三课 机器学习基本概念

什么是机器学习 研究如何通过计算的手段,利用经验来改善系统自身的性能 通俗来讲,让代码学着干活● 特征:自变量 ● 标签:因变量学习的种类 ● 有监督学习:提供标签,分类、回归 ● 无监督学习:无标签,聚类 ● 增强学习:也称强化学习,马尔科夫决策过程(Markov D...

2017-07-06 19:41:51

阅读数 279

评论数 0

原创 【linux 命令】ll 命令不管用的问题

[root@node1 ~]# find / -name mysql 查看mysql的安装路径 /usr/lib64/mysql /usr/share/mysqlll 命令不管用的问题:$ vim ~/.bashrc alias ll=’ls -l’ #加入此行 ps:加入后肯...

2017-07-06 19:30:03

阅读数 6757

评论数 0

原创 【大数据 BI】传统BI流程

传统BI流程

2017-07-06 19:27:31

阅读数 2624

评论数 0

原创 【大数据 hadoop】hadoop生态圈

adoop生态圈hadoop提供的功能,利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理核心组件: A、HDFS 分布式文件系统 B、YARN 运算资源调度系统 C、MAPREDUCE 分布式运算编程框架生态圈sprakstormflumehivehbaseha...

2017-07-06 19:22:33

阅读数 1033

评论数 0

原创 【ML--02】第二课 线性回归

1、重点归纳 回归分析就是利用样本(已知数据),产生拟合方程,从而(对未知数据)进行预测 用途:预测,判别合理性 例子:利用身高预测体重;利用广告费用预测商品销售额;等等. 线性回归分析:一元线性;多元线性;广义线性 非线性回归分析 困难:选定变量(多元),避免多重共线性,观察拟合...

2017-07-06 19:13:19

阅读数 1795

评论数 0

原创 【ML--01】第一课 机器学习概述

接下来打算整理下一套机器学习的过程和学习文档分享给大家,共同学习进步~我理解的机器学习(Machine Learing,ML)1、、机器学习是对能通过经验自动改进的计算机算法的研究。从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。机器学习以算法为主,需要一定的数学素养,最终目标将机器...

2017-07-06 09:57:19

阅读数 1201

评论数 0

提示
确定要删除当前文章?
取消 删除