东华果汁哥-CSDN博客

原创【excel 函数】常用的Excel函数

函数可以被我们想象成一个盒子，专门负责将输入转换成输出，不同的函数对应不同的输出。清洗处理类：trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text关联匹配类：lookup、vlookup、index、match、row、column、offset逻辑运算类：if、and、or、is系列计算统计类：su

2017-07-19 11:57:10 920

原创【mysql 数据迁移】mysql中同一服务器,要从一个数据库里复制一个表到另一个数据库

mysql 同一个服务中，两个数据库A,Bcreate table b.table1 as select * from a.table1

2017-07-19 11:16:03 2148

原创【mysql 数据迁移】 mysql 把数据库从一个服务器复制到另一个服务器

1，把sampdb数据库从本地主机复制到远程主机121.121.121.121上的mysql服务上去。 mysqldump –databases sampdb | mysql -h 121.121.121.121 2，如果本地主机无法访问远程mysql服务器但能够通过登录远程主机的办法访问它，就可以通过ssh来远程调用mysql程序。 mysqldump –databases sampdb |

2017-07-19 10:53:10 5996

原创【R语言数据分析】多重共线性问题

1、什么是多重共线性？多重共线性（Multicollinearity）是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。2、多重共线性对回归模型的影响@1、完全共线性下参数估计量不存在 @2、近似共线性下OLS估计量非有效 @3、参数估计量经济含义不合理 @4、变量的显著性检验失去意义，可能将重要的解释变量排除在模型之外 @5、模型的预测功

2017-07-18 09:33:27 13611 2

原创【Hadoop--04】Hadoop读文件

1、客户端向NameNode发送读取请求2、NameNode返回文件的所有block和这些block所在的DataNodes（包括复制节点）3、客户端直接从DataNode中读取数据，如果该DataNode读取失败（DataNode失效或校验码不对），则从复制节点中读取（如果读取的数据就在本机，则直接读取，否则通过网络读取）

2017-07-18 09:23:51 782

原创【Hadoop--03】HDFS写文件

1.客户端将文件写入本地磁盘的N#x4E34;时文件中2.当临时文件大小达到一个block大小时，HDFS client通知NameNode，申请写入文件3.NameNode在HDFS的文件系统中创建一个文件，并把该block id和要写入的DataNode的列表返回给客户端4.客户端收到这些信息后，将临时文件写入DataNodes4.1 客户端将文件内容写入第一个DataNode（一般以4kb为单

2017-07-17 17:48:45 727

原创【Hadoop--02】Hadoop HDFS是什么？

Hadoop - HDFS简介 Hadoop Distributed File System，分布式文件系统架构Block数据&##x5757;基本存储单位，一般大小为64M（配置大的块主要是因为：1）减少搜寻时间，一般硬盘传输速率比寻道时间要快，大的块可以减少寻道时间；2）减少管理块的数据开销，每个块都需要在NameNode上有对应的记录；3）对数据块进行读写，减少建立网络的连接成本）一个大文件

2017-07-17 17:36:04 572

原创【Hadoop--01】Hadoop简介

Hadoop可运行于一般的商用服务器上，具有高容错、高可靠性、高扩展性等特点特别适合写一次，读多次的场景。适合大规模数据流式数据（写一次，读多次）商用硬件（一般硬件）不适合低延时的数据访问大量的小文件频繁修改文件（基本就是写1次）Hadoop架构HDFS: 分布式文件存储 YARN: 分布式资源管理 MapReduce: 分布式计算 Others: 利用YARN的资源管

2017-07-17 17:19:43 2468

原创【DL--07】深度学习基本概念—epochs

epochs 一个epoch是指把所有训练数据完整的过一遍真的不是很想解释这个词，但是新手问的还挺多的…… 简单说，epochs指的就是训练过程中数据将被“轮”多少次，就这样。

2017-07-17 16:39:16 4479

原创【DL--06】深度学习基本概念—batch

batch这个概念与Keras无关，老实讲不应该出现在这里的，但是因为它频繁出现，而且不了解这个技术的话看函数说明会很头痛，这里还是简单说一下。深度学习的优化算法，说白了就是梯度下降。每次的参数更新有两种方式。第一种，遍历全部数据集算一次损失函数，然后算函数对各个参数的梯度，更新梯度。这种方法每更新一次参数都要把数据集里的所有样本都看一遍，计算量开销大，计算速度慢，不支持在线学习，这称为Batch

2017-07-17 15:54:14 3398

原创【DL--05】深度学习基本概念—函数式模型

函数式模型函数式模型算是本文档比较原创的词汇了，所以这里要说一下在Keras 0.x中，模型其实有两种，一种叫Sequential，称为序贯模型，也就是单输入单输出，一条路通到底，层与层之间只有相邻关系，跨层连接统统没有。这种模型编译速度快，操作上也比较简单。第二种模型称为Graph，即图模型，这个模型支持多输入多输出，层与层之间想怎么连怎么连，但是编译速度慢。可以看到，Sequential其实是G

2017-07-17 15:44:32 2304

原创【DL--04】深度学习基本概念—data_format

data_format这是一个无可奈何的问题，在如何表示一组彩色图片的问题上，Theano和TensorFlow发生了分歧，’th’模式，也即Theano模式会把100张RGB三通道的16×32（高为16宽为32）彩色图表示为下面这种形式（100,3,16,32），Caffe采取的也是这种方式。第0个维度是样本维，代表样本的数目，第1个维度是通道维，代表颜色通道数。后面两个就是高和宽了。这种thea

2017-07-17 15:03:38 1557

原创【DL--03】深度学习基本概念—张量

张量TensorFlow中的中心数据单位是张量。张量由一组成形为任意数量的数组的原始值组成。张量的等级是其维数。以下是张量的一些例子：3 # a rank 0 tensor; this is a scalar with shape [][1. ,2., 3.] # a rank 1 tensor; this is a vector with shape [3][[1., 2., 3

2017-07-17 14:54:58 5310 1

原创【DL--02】深度学习基本概念--符号计算

符号计算Keras的底层库使用Theano或TensorFlow，这两个库也称为Keras的后端。无论是Theano还是TensorFlow，都是一个“符号式”的库。因此，这也使得Keras的编程与传统的Python代码有所差别。笼统的说，符号主义的计算首先定义各种变量，然后建立一个“计算图”，计算图规定了各个变量之间的计算关系。建立好的计算图需要编译以确定其内部细节，然而，此时的计算图还是一个“空

2017-07-17 14:44:31 1251

原创【DL--01】深度学习揭开DL的神秘面纱

什么是深度学习深度学习=深度神经网络+机器学习人工智能 > 机器学习 > 表示学习 > 深度学习神经元模型输入信号、加权求和、加偏置、激活函数、输出全连接层输入信号、输入层、隐层（多个神经元）、输出层（多个输出，每个对应一个分类）、目标函数（交叉熵）待求的参数：连接矩阵W、偏置b 训练方法：随机梯度下降，BP算法（后向传播）Python中深度学习实现：Keras 官网

2017-07-17 10:40:22 4095

原创【ML--05】第五课如何做特征工程和特征选择

一、如何做特征工程？ 1.排序特征：基于7W原始数据，对数值特征排序，得到1045维排序特征 2. 离散特征：将排序特征区间化（等值区间化、等量区间化），比如采用等量区间化为1-10，得到1045维离散特征 3. 计数特征：统计每一行中，离散特征1-10的个数，得到10维计数特征 4. 类别特征编码：将93维类别特征用one-hot编码 5. 交叉特征：特征之间两两融合，x+y、x-y、x

2017-07-14 10:27:07 2564

原创【ML--04】第四课 logistic回归

1、什么是逻辑回归？当要预测的y值不是连续的实数（连续变量），而是定性变量（离散变量），例如某个客户是否购买某件商品，这时线性回归模型不能直接作用，我们就需要用到logistic模型。逻辑回归是一种分类的算法，它用给定的输入变量（X）来预测二元的结果（Y）（1/0,是/不是，真/假）。我们一般用虚拟变量来表示二元/类别结果。你可以把逻辑回归看成一种特殊的线性回归，只是因为最后的结果是类别变量，所以我

2017-07-12 11:06:49 2308

原创【python 爬虫】python淘宝爬虫实战（selenum+phontomjs）

1、需求目标：进去淘宝页面，搜索耐克关键词，抓取商品的标题，链接，价格，城市，旺旺号，付款人数，进去第二层，抓取商品的销售量，款号等。2、结果展示 3、源代码# encoding: utf-8import sysreload(sys)sys.setdefaultencoding('utf-8')import timeimport pandas as pdtime1=ti

2017-07-11 14:16:55 4373

原创【hadoop Sqoop】Sqoop从mysql导数据到hdfs

1.下载sqoop安装包wget https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz2.解压安装包tar -xzvf /sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz3.配置hadoopmv sqoop-1.4.6.

2017-07-07 11:18:52 1030

原创【Hive Hbase】Hbase与Hive的区别与联系

问题导读：Hive与Hbase的底层存储是什么？ hive是产生的原因是什么？ habase是为了弥补hadoop的什么缺陷？共同点： 1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别： 2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统，HBase是为了支持弥补Hadoop对实时操作的缺陷的项目。3.想象你

2017-07-07 11:11:02 1857

原创【hadoop Sqoop】数据迁移工具 sqoop 入门

数据迁移工具sqoop入门首先，先简单说明下sqoop是什么，sqoop 即 SQL to Hadoop ，是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具，充分利用MapReduce并行特点以批处理的方式加快数据传输，发展至今主要演化了二大版本，sqoop1和sqoop2。那么为什么选择sqoop呢？ 1，高效可控的利用资源，任务并行度，超时时间。 2，数据类型映射与转

2017-07-07 10:57:41 2091

原创【hadoop Sqoop】Sqoop从mysql导数据到hive

1、概述Sqoop是一个实现在关系型数据库和Hive进行数据交换的工具。主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。2、参数hive导入参数　　--hive-home

2017-07-07 10:51:42 759

原创【hadoop Sqoop】Sqoop 1.4.6 安装

第一步：下载Sqoop选择 (sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz) http://apache.fayea.com/sqoop/1.4.6/第二步：拷贝至安装目录并解压缩tar zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz第三步：目录名过长，修改为 sqoop-1.4.6mv sqoop-1.4.6.

2017-07-07 10:35:47 643

原创【ML--03】第三课机器学习基本概念

什么是机器学习研究如何通过计算的手段，利用经验来改善系统自身的性能通俗来讲，让代码学着干活● 特征：自变量 ● 标签：因变量学习的种类 ● 有监督学习：提供标签，分类、回归 ● 无监督学习：无标签，聚类 ● 增强学习：也称强化学习，马尔科夫决策过程（Markov Decision Processes，MDP） ● 主动学习：边学习边标注 ● 迁移学习：从一

2017-07-06 19:41:51 471

原创【linux 命令】ll 命令不管用的问题

[root@node1 ~]# find / -name mysql 查看mysql的安装路径 /usr/lib64/mysql /usr/share/mysqlll 命令不管用的问题:$ vim ~/.bashrc alias ll=’ls -l’ #加入此行 ps:加入后肯能无法当场起作用, 执行该句: source ~/.bashrc

2017-07-06 19:30:03 12111

原创【大数据 BI】传统BI流程

传统BI流程

2017-07-06 19:27:31 3413

原创【大数据 hadoop】hadoop生态圈

adoop生态圈hadoop提供的功能，利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理核心组件： A、HDFS 分布式文件系统 B、YARN 运算资源调度系统 C、MAPREDUCE 分布式运算编程框架生态圈sprakstormflumehivehbasehadoop在大数据、云计算中的位置和关系云计算是分布式计算、并行计算、网络计算、多核计算、网络存储、虚拟化

2017-07-06 19:22:33 1400

原创【ML--02】第二课线性回归

1、重点归纳回归分析就是利用样本（已知数据），产生拟合方程，从而（对未知数据）进行预测用途：预测，判别合理性例子：利用身高预测体重；利用广告费用预测商品销售额；等等. 线性回归分析：一元线性；多元线性；广义线性非线性回归分析困难：选定变量（多元），避免多重共线性，观察拟合方程，避免过度拟合，检验模型是否合理2、一元线性回归：首先计算相关系数确定自变量与因变量是否相关。

2017-07-06 19:13:19 2094

原创【ML--01】第一课机器学习概述

接下来打算整理下一套机器学习的过程和学习文档分享给大家，共同学习进步~我理解的机器学习（Machine Learing，ML）1、、机器学习是对能通过经验自动改进的计算机算法的研究。从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。机器学习以算法为主，需要一定的数学素养，最终目标将机器学习算法用于大数据挖掘。2、机器学习是人工智能研究的核心内容。它的应用已遍及人工智能的各个分支。数据挖掘

2017-07-06 09:57:19 1460

原创【jquery 走进web】Web进阶比JS更方便的JQuery

简介 ● JQuery是一个JS库 ● 极大地简化了JS编程 ● JQuery很容易学习引入 ● 下载下来并引入：http://jquery.com/download/ ● 直接引用CDN： http://cdn.bootcss.com/jquery/2.1.4/jquery.min.js语法 (document).ready(function());(documen

2017-07-04 12:22:52 1109

原创【js 走进web】Web基础网页的关节JS

什么是JS HTML中的脚本编程语言：JavaScript，但和Java毛关系没有这都不重要，重要的是： JS决定了如何动态改变HTML元素使用JS 1. 在html中使用js 2. 引入外部.js文件内容 ● document.write() ● 变量var：数值、字符、数组、字典/对象 ● document.getElementById() ● oncl

2017-07-04 12:21:40 1153

原创【python 爬虫】Python爬虫技术分享

1、什么是“爬虫”？简单来说，写一个从web上获取需要数据并按规定格式存储的程序就叫爬虫；爬虫理论上步骤很简单，第一步获取html源码，第二步分析html并拿到数据。但实际操作，老麻烦了~2、用Python写“爬虫”有哪些方便的库常用网络请求库： requests、urllib、urllib2、urllib和urllib2是Python自带模块，requests是第三方库常用解析库和爬虫框架： Be

2017-07-03 17:14:08 1536

原创【CSS 走进web】Web基础网页的血肉CSS

什么是CSS 层叠样式表：Cascading Style Sheets这都不重要，重要的是： CSS决定了如何显示HTML元素基本结构选择器 + 样式（key: value）--------------------------------------------------------------------------------p {color: red;font-size: 20px

2017-07-03 15:09:22 991

转载【大数据 hadoop】大数据框架Hadoop主要模块介绍

本文涉及到的所有模块，都是属于Apache组织，不包括其他第三方的模块。核心模块：Hadoop Common: 包括Hadoop常用的工具类，由原来的Hadoop core部分更名而来。主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。它们为在通用硬件上搭建云计算环境提供基本的服务，并为运行在该平台上的软件开发提供了所需的

2017-07-03 10:05:52 1778

原创【html 走进web】Web基础网页的骨骼HTML

什么是HTML超文本标记语言：Hyper Text Markup Language这都不重要，重要的是：HTML是Web网页的基本组成部分HTML中定义的元素，决定了网页的内容和结构Python：编程语言，编写程序HTML：标记语言，像画画一样，画出网页的内容基本结构--------------------------------------------------------------

2017-07-02 12:20:59 1908

原创【python 走进NLP】NLP WordEmbedding的概念和实现

背景如何表示词语所包含的语义？苹果？水果？Iphone？苹果、梨子，这两个词相关吗？语言的表示符号主义：Bags-of-word，维度高、过于稀疏、缺乏语义、模型简单分布式表示：Word Embedding，维度低、更为稠密、包含语义、训练复杂Word Embedding 核心思想：语义相关的词语，具有相似的上下文环境，例如，苹果和梨子所做的事情：将每个词语训练成，词向量实

2017-07-02 11:49:36 5746 2

原创【R语言数据探索】实战 Diamonds数据集探索

1.主要内容查看数据diamonds 截取子集set.seed(123)diamonds <- diamonds[sample(nrow(diamonds), 1000),]查看概要summary()、str()探索价格和克拉的关系：geom_point()，映射颜色和形状价格分布：geom_histogram()，映射填充、position="fill"/"dodge"透明度分布：geo

2017-07-01 23:48:36 11329

原创【python mysql】数据库使用Python操作MySQL

MySQLdb安装：pip install mysql-python加载包 --------------------------------------------------------------------------------import MySQLdbimport MySQLdb.cursors------------------------------------------

2017-06-30 19:29:26 2022

原创【web服务器搭建】用MAMP和WAMP搭建Web环境

Web环境 Web服务器：Apache、Nginx，处理Web请求数据库：MySQL，存储和管理数据后端：PHP Web服务启动后，就可以在浏览器中访问根目录中的网站项目 MAMP：Mac，Apache，MySQL，PHP，https://www.mamp.info/en/ WAMP：Windows，Apache，MySQL，PHP，http://www.wampserver.com/

2017-06-30 17:46:38 2570

原创【python 文本统计】西游记用字统计

1、数据 xyj.txt，《西游记》的文本，2.2MB 致敬吴承恩大师，4020行（段）2、目标统计《西游记》中： 1. 共出现了多少个不同的汉字； 2. 每个汉字出现了多少次； 3. 出现得最频繁的汉字有哪些。3、涉及内容： 1. 读文件； 2. 字典的使用； 3. 字典的排序； 4. 写文件4、效果5、源代码# coding:utf8impor

2017-06-30 16:15:22 6180 1

gbdt和xgboost算法详解

空空如也