scxyz_-CSDN博客

原创【CNN】理解卷积神经网络中的通道 channel

在深度学习的算法学习中，都会提到 channels 这个概念。在一般的深度学习框架的 conv2d 中，如 tensorflow 、mxnet ，channels 都是必填的一个参数。channels 该如何理解？先看一看不同框架中的解释文档。首先，是 tensorflow 中给出的，对于输入样本中 channels 的含义。一般的RGB图片，channels 数量是 3 （红、绿、蓝）...

2018-04-04 16:07:15 136483 78

原创【评分卡】评分卡入门与创建原则——分箱、WOE、IV、分值分配

本文主要讲“变量选择”“模型开发”“评分卡创建和刻度”变量分析首先，需要确定变量之间是否存在共线性，若存在高度相关性，只需保存最稳定、预测能力最高的那个。需要通过 VIF(variance inflation factor）也就是方差膨胀因子进行检验。变量分为连续变量和分类变量。在评分卡建模中，变量分箱（binning）是对连续变量离散化（discretization）的一种称呼

2017-11-22 17:41:59 103146 13

原创 curl: (7) Failed to connect to raw.githubusercontent.com port 443: Connection refused 解决方法

问题：报错 curl: (7) Failed to connect to raw.githubusercontent.com port 443: Connection refused解决方法：参考：https://bbs.huaweicloud.com/blogs/143682很多方法都没用，这个解决了问题。希望对你有用。原因由于某些你懂的因素，导致GitHub的raw.github...

2020-04-17 10:25:45 18610 10

原创【亲身经历】2019杭州人才引进落户——详细流程、地址、所需材料、网上办事链接

首先说一下整体的办理感受：完美（先吹一波）。不管是从服务态度还是办事效率，好到我都觉得这不是在政府办事了。大部分事情可以在网上办理，政府网站也很给力，基本都是处于更新状态，而不是摆设。不愧是杭州，一套流程走下来打心底里觉得落户杭州是正确的选择。以后不管是生活还是办理公共事务，肯定非常舒服。办理时间是2019年3月份，其实当场办理很快，窗口也很有效率，主要是邮寄东西耽误时间。本文主要说研究生...

2019-07-28 22:41:03 7421

原创解决xgboost报错： ValueError: feature_names mismatch

问题原因已使用训练数据完成xgboost模型的训练，后期应用时，加载完成模型，使用新数据进行预测时报错。ValueError: feature_names mismatch，具体如下图。导致这个问题原因可能有多种情况，我这里对我的情况解释一下。我这里是由于训练数据划分好，使用的 X_train 训练，后面经验证集 X_test 跑出结果，得到auc都没有问题。保存好模型。在后期再应...

2019-05-20 15:28:11 15356

原创【Linux-Ubuntu】免U盘安装windows 和 Ubuntu 18.04 双系统流程，教你避免各种坑

python机器学习和深度学习的很多开源模块在windows下面不好用，一直使用的是虚拟机，但是虚拟机里不敢给太高配置，电脑会卡，所以训练很慢。为了提高使用体验，决定装一个windows和Linux（Ubuntu）的双系统，在装的过程中我真的遇到了非常多的坑，装了不下十次，才最终找到一个最靠谱的安装方法，在此和大家分享，win7和win10都适用。但是每个人的电脑不同，不能保证所有电脑都完美，但最...

2019-05-07 11:49:31 31899 7

原创【算法】字符串匹配2 BM算法坏字符规则好后缀规则 python代码实现

BM算法， Boyer-Moore，非常高效，是KMP算法的3~4倍。高能预警，此算法较难。核心思想匹配过程其实就是模式串在主串中不停地往后滑动。当遇到不匹配的字符时，BF和RK算法做法是往后滑动一位，从模式串第一个字符重新匹配。上图中，主串中的 c 其实在模式串中并不存在，所以滑动时只要与 c 有重合，肯定无法匹配。所以可以把模式串多滑动几位，移到c后面再开始匹配。这样效率就提高了...

2019-04-26 17:45:51 2266 1

转载【算法】字符串匹配1 BF算法 RK算法

字符串匹配有多种方法，这里先讲最简单的两种算法： BF算法和 RK算法，复杂度也相对较高。它们均为单模式串匹配的算法，也就是一个串跟一个串进行匹配。BF算法简介Brute Force，暴力匹配算法，也叫朴素匹配算法。比较简单、好懂，但相应的性能也不高。在字符串 A 中查找字符串 B ，那字符串 A 就是主串，字符串 B 就是模式串。主串的长度记作 n ，模式串的长度记作 m ，所以...

2019-04-26 17:18:34 939 1

原创【数据处理】pandas DataFrame 实现某列中分隔数据转成多行 split explode

DataFrame中某列由“逗号”分隔，格式如下。希望转换后，分隔的行全部以列的形式重新排列。处理前：处理后：转换代码如下。import pandas as pddf = pd.DataFrame([{'var1': 'a,b,c', 'var2': 1}, {'var1': 'd,e', 'var2': 2}])df1 = pd.concat...

2019-04-23 15:10:29 12677 3

原创【算法】图的深度优先搜索广度优先搜索复杂度分析 python代码实现

深度优先搜索算法和广度优先搜索算法都是基于“图”这种数据结构的。作为图的搜索算法，既可用于有向图，也可用于无向图，以下均用无向图讲解。广度优先搜索Breadth-First-Search，BFS。一种“地毯式”层层推进的搜索策略，先查找离起始顶点最近的，然后是次近的，依次往外搜索。s 表示起始顶点，t 表示终止顶点。搜索一条从 s 到 t 的路径。实际上，求得的路径就是从 s 到 t ...

2019-04-10 01:08:55 7450

原创【数据结构】图的表示与存储方法邻接表邻接矩阵

图是一种非线性表数据结构。图中的元素我们就叫作顶点（vertex）。一个顶点可以与任意其他顶点建立连接关系，这种建立的关系叫作边（edge）。跟顶点相连接的边的条数，叫作顶点的度（degree）无向图边没有方向的图就叫作“无向图”。有向图边有方向的图叫作“有向图”。有向图中，把度分为入度（In-degree）和出度（Out-degree）。顶点的入度，表示有多少条边指向这个顶...

2019-04-10 00:49:13 1218

原创 Linux - Ubuntu 下配置JAVA JVM

下载假设现在已经在虚拟机中安装好了ubuntu系统，首先去下载 JDK 和 HADOOP 解压配置环境将压缩包进行解压，放入合适的位置。tar -zxvf jdk-8u172-linux-x64.tar.gztar -zxvf hadoop-X.Y.Z-src.tar.gz如果有root权限可以更改 /etc/environment 内的环境，没有权限的话更改 ~/....

2019-04-04 10:41:36 4486 1

原创【算法】理解哈希算法 hash 和常见应用

概念将任意长度的二进制值串映射为固定长度的二进制值串，这个映射的规则就是哈希算法。通过原始数据映射之后得到的二进制值串就是哈希值。要求从哈希值不能反向推导出原始数据对输入数据非常敏感，一个 Bit 修改得到的哈希值也大不相同散列冲突的概率要很小执行效率高效常见应用安全加密、唯一标识、数据校验、散列函数、负载均衡、数据分片、分布式存储。后三个应用均与分布式系统有关。下面...

2019-03-19 11:40:56 2695

原创【链表】快慢双指针——python解决链表中环的检测，求单链表的中间结点

在解决链表的很多问题时，设置快慢指针是一个很好的解决思路。这次解决两个问题：链表中是否有环结构求单链表的中间节点快慢指针的另一个问题删除链表倒数第n个结点，请点击查看。链表中环的检测class Node(): def __init__(self, data, next=None): self.data = data self.next =...

2019-02-28 15:08:25 1107

原创【链表】快慢双指针——python解决删除链表倒数第n个结点

在解决链表的很多问题时，设置快慢指针是一个很好的解决思路。这次问题的是删除链表倒数第 n 个结点。例如， 1 -&amp;amp;amp;amp;gt; 2 -&amp;amp;amp;amp;gt; 3 -&amp;amp;amp;amp;gt; 4 -&amp;amp;amp;amp;gt; 5，删除倒数第2个变成 1 -&amp;amp;amp;amp;gt; 2 -&amp;amp;amp;amp;g

2019-02-28 14:12:02 720

原创【数据结构】链表的介绍与python实现下篇

【算法与数据结构】链表的介绍与python实现上篇【算法与数据结构】链表的介绍与python实现下篇上面简单介绍了链表，这篇用python实现链表的基本一些操作。包括打印链表，插入，删除，查找，翻转。class Node(): def __init__(self, data, next=None): self.data = data self.n...

2019-02-27 10:17:10 311

原创【数据结构】链表的介绍与python实现上篇

【算法与数据结构】链表的介绍与python实现上【算法与数据结构】链表的介绍与python实现下本文部分文字图片引用了极客时间的《数据结构与算法之美》链表篇 https://time.geekbang.org/column/article/41013讲解的很不错的课程，如果有需要可以去订阅。链表介绍链表通过指针将一组零散的内存块串联在一起。内存块称为链表的“结点”。为了将...

2019-02-27 10:12:26 579

原创【facenet项目】人脸识别相关数据下载(包括 CASIA/LFW/训练模型)

下面的数据是github上的开源项目 facenet 的相关数据下载。具体请查看项目介绍。名称百度网盘地址密码20180402-114759https://pan.baidu.com/s/1_GABHFZfM13K8Qy0a6EIEgchxh20180408-102900https://pan.baidu.com/s/19Z5uG7LXvtGKSpfYREy...

2019-02-11 16:20:04 5351 6

原创一文完全理解模型ks指标含义并画出ks曲线（包含代码和详细解释）

KS(Kolmogorov-Smirnov)：KS用于模型风险区分能力进行评估，指标衡量的是好坏样本累计分部之间的差值。好坏样本累计差异越大，KS指标越大，那么模型的风险区分能力越强。 ——神秘的KS值和GINI系数上面是ks的简单介绍，相信大家看了这几句话，肯定还是不懂ks到底是个什么。我也是研究了比较久，终于搞清楚了ks的具体计算方式。搞清楚了计算方式后，ks的含义自然就清楚了。下面...

2019-01-31 11:44:20 78533 13

原创 ubuntu 18.04 安装NVIDIA驱动 cuda/cudnn + tensorflow-gpu + pytorch

电脑换了华硕新主板，需要重装系统，用的Ubuntu18.04的系统，电脑用的显卡是GTX1080Ti。在新系统中装显卡驱动过程中遇到很多坑，中间无奈搞乱环境又重装了一次系统，再次尝试，终于成功。整个过程失败次数很多，参考的教程感觉自己步步都做对了，但是最后就是不能成功运行。配置系统这种事情确实比较麻烦，心态要对，遇到问题上网搜索方法，最终总归都能解决。接下来接讲讲我装NVIDIA驱动到装tens...

2018-12-29 15:35:34 6043 2

原创 conda和pip常用方法，更换源，包的安装、更新、删除、查看

anaconda软件官网下载速度过慢，可以使用清华源的下载地址，https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/?C=M&O=Aconda和pip可以说各有优劣。pip的模块更全更多，而conda使用更方便，安装模块时会检查环境，自动下载。conda 特别是在数据分析方面，会对某些常用的包做了专门的优化。更换源pip临...

2018-12-29 15:29:37 16042

原创【转载】ggplot2主题设置

http://www.rpubs.com/lihaoyi/156592library(ggplot2) #加载ggplot2包library(gcookbook) #加载本书的数据包主题theme参数设置改变字体类型、大小，图例、坐标轴、背景等各种元素，可通过theme()函数来完成library(ggplot2)library(grid) #为了使用unit函数p0 <- ggplo

2018-09-26 10:07:09 8203 1

原创【数据处理】pandas DataFrame 对多个sheet表格的excel 读取、处理、保存

今天一个不太懂编程的朋友让我帮他处理一些excel的表格，要求大概是：有20多个excel表，每个表里有42个sheet表格（sheet数量和名字相同）。最终需要根据对应的sheet名称将所有表格拼接成一个。为了方式朋友数据泄露，我模拟了一下文件内容，大概如下。不同的excel文件，每个文件中相同的sheet名称。他用VBA一时间没有写出来，请我看看能不能用python实现。我大概搜索了...

2018-09-26 00:46:20 76610 12

原创【RNN】理解word2vec中的 Skip-Gram

在处理文字模型的时候，将文字转化成可以放进模型的数字，最简单方法是用 one-hot 编码。但是这种方法有弊端，转化后的每个词之间在数字上都是相互独立的，任何一对词的one-hot向量的余弦相似度都为0。Google团队发表的 word2vec 工具。word2vec工具主要包含两个模型：跳字模型（skip-gram）和连续词袋模型（continuous bag of words，简称CBOW...

2018-04-25 11:27:14 1994

原创【CNN】卷积神经网络中的 1*1 卷积的作用

在论文 Network In Network 中，提出了一个重要的方法：1×11×11\times1 卷积。这个方法也在后面比较火的方法，如 googLeNet、ResNet、DenseNet ，中得到了非常广泛的应用。特别是在 googLeNet 的Inception中，发挥的淋漓尽致。初次看到 1×11×11\times1 卷积，可能会觉得没有什么作用，因为给人的感觉就是 1×11×11\...

2018-04-09 17:06:53 7971 2

原创 [算法] 二叉树的先序遍历、中序遍历、后序遍历

本文根据清华大学邓俊辉老师课程《数据结构》总结，课程地址。遍历介绍按照事先约定的某种规则或次序，对节点各访问一次而且仅一次。与向量和列表等线性结构一样，二叉树的这类访问也统称为遍历（traversal）。二叉树本身并不具有天然的全局次序，故为实现遍历，需通过在各节点与其孩子之间约定某种局部次序，间接地定义某种全局次序。按惯例左兄弟优先于右兄弟，若记做节点 V ，...

2018-02-27 16:28:05 35809

原创 [算法] 递归方程减而治之分而治之

本文根据清华大学邓俊辉老师课程《数据结构》总结，课程地址。递归与递归方程从递推角度看，为求解数组 A 的求和问题 sum(A,n)，需要 - 递归求解规模为 n-1 的问题 sum(A,n-1) - 再累加上 A[n-1] 递推方程看其复杂度， (1)T(n)=T(n−1)+O(1)//recurrence(2)T(0)=O(1)//base:su

2018-02-07 14:12:17 1067

原创 [算法] 循环、级数、复杂度

本文根据清华大学邓俊辉老师课程《数据结构》总结，课程地址。循环和级数之间的关系，怎样确定其复杂度，有以下几种常见的情况。1for (int i=0; ii++) for (int j=0; jj++) O1Operation(i, j); 外层（i）有 n 层循环，也就是n 项相加。内层（j）每层循环 n 次，也就是每项计算 n 次。加一起复杂度为

2018-02-06 16:47:57 1522

原创 [算法] 大O记号 RAM 级数

本文根据清华大学邓俊辉老师课程《数据结构》总结，课程地址。RAM 寄存器RAM（Random Access Machine 寄存器），和图灵机（TM）一样，RAM模型也是一半计算工具的简化与抽象。每一基本操作仅需常数时间：寄存器读写（赋值）、四则运算、比较、goto、call、return。通过RAM使我们可以独立于具体的平台，对算法的效率进行比较与评判。对算法给出客观

2018-02-06 14:29:42 629

原创台湾大学深度学习课程学习笔记 Lecture 5-2: Sequence Generation

以下内容和图片均来自台湾大学深度学习课程。课程地址：https://www.csie.ntu.edu.tw/~yvchen/f106-adl/syllabus.htmlGenerationRNN的应用方法sentences是由characters/word 组成；使用RNN的方法每次生成一个characters/word X 是之前产生的一个word，用one-hot-encodi

2018-01-15 11:57:25 2220

原创台湾大学深度学习课程学习笔记 Lecture 5-1: Gated RNN（LSTM与GRU介绍）

以下内容和图片均来自台湾大学深度学习课程。课程地址：https://www.csie.ntu.edu.tw/~yvchen/f106-adl/syllabus.htmlReview首先复习一下 lecture3-1 Recurrent Neural Network 讲过的RNN结构。RNN假设现在有3个sequence表示为 x1x^1、x2x^2、x3x^3，设定的初始化向量 h0h_

2018-01-10 14:18:06 2972 1

原创台湾大学深度学习课程学习笔记 lecture4 Word Embeddings

以下内容和图片均来自台湾大学深度学习课程。课程地址：https://www.csie.ntu.edu.tw/~yvchen/f106-adl/syllabus.html在之前 lecture2-2 Word Representation 的课程中简单讲解了 Word 处理的传统方法。通过传统方法的局限性引入新的方法 Word Embeddings，从而直接学习得到低维结果，而...

2018-01-08 15:50:14 986

原创台湾大学深度学习课程学习笔记 lecture3-2 Recursive Neural Network（RvNN）

以下内容和图片均来自台湾大学深度学习课程。课程地址：https://www.csie.ntu.edu.tw/~yvchen/f106-adl/syllabus.html当把所有word 转化成vector后，需要将这些vector进行整合，传统整合方法一般使用average, sum等，接下来介绍使用Recursive Neural Network（RvNN）递归神经网络进行处理。

2017-12-21 18:10:22 4323

原创台湾大学深度学习课程学习笔记 lecture3-1 Recurrent Neural Network (RNN)

Recurrent Neural Network （RNN）循环神经网络常被用到的领域是Language Modeling，下面就从Language Modeling方法的发展，引入RNN。Language Modeling多个word组成一句话，根据一句话出现的概率可以得到更符合语法结构和有意义的句子。比如根据给出的一段语音，可以得到两种完全不同的句子“recognize speech”、“w

2017-12-20 18:31:20 1226

原创台湾大学深度学习课程学习笔记 lecture2-2 Word Representation

以下内容和图片均来自台湾大学深度学习课程。课程地址：https://www.csie.ntu.edu.tw/~yvchen/f106-adl/syllabus.html函数“ff”的作用 “Meaning”的含义？怎样表示文字上的语义？本节课主要讲了两种方法，分别如下：Knowledge-based representation这个是传统方法，语言学家们制定了一套 WordNe

2017-12-18 18:52:27 631

原创台湾大学深度学习课程学习笔记 lecture2-1 Backpropagation

以下内容和图片均来自台湾大学深度学习课程。课程地址：https://www.csie.ntu.edu.tw/~yvchen/f106-adl/syllabus.html上节课程 lecture1-2 Neural Network Basics 讲了神经网络的结构以及正向传播的方法公式，最后也快速讲了一下使用梯度下降的方法进行优化，并且比较了GD、SGD、Mini-Batch三种方法。本节

2017-12-17 23:04:03 858

原创【特征工程】离散型变量映射成数字

在特征处理中，有一些特征如：姓名学历收入小张高中 4000-5000元小王本科 6000-7000元小李硕士 8000-9000元小赵本科 6000-7000元 … … …这些特征在后期处理上，我们一般需要映射成一组数字去替换。不仅省去了中文容易乱码的问题，查看方便

2017-12-12 10:30:09 1736

原创【R语言】柱状图+自动颜色+横向+添加文本+更改坐标轴范围

文件：data.txt region counts splice_region 2748 5_prime_UTR 4559 3_prime_UTR 33147 upstream 75401 downstream 85138 intergenic_region 57160 intron 447545 exon 41060libra

2017-12-11 14:21:50 25763

原创【特征工程】一种异常值检测方法、原理、代码实现（基于箱线图）

分享一段检测异常值的代码，这段代码从kaggle上看到的，很简单也很有用，代码在下面。代码原地址：https://www.kaggle.com/cccsss/titanic-top-4-with-ensemble-modeling分享之前先介绍代码使用到的方法原理，也就是一种异常检测的方法。想了解方法首先要先了解箱线图。箱线图箱线图（Boxplot）也称箱须图（Box-whisker Pl

2017-12-11 13:52:27 13695 1

原创 python 高阶函数 map/reduce/filter/

python中有很多非常实用的內建函数和高阶函数，平时filterfilter()函数接收一个函数 f 和一个list，这个函数 f 的作用是对每个元素进行判断，返回 True或 False，filter()根据判断结果自动过滤掉不符合条件的元素，返回由符合条件元素组成的新list。## 判断是否为正数def is_positive(x): return x > 0

2017-12-11 11:30:24 321

Python爬虫开发与项目实战

Python爬虫开发与项目实战范传辉编著随着大数据时代到来，网络信息量也变得更多更大，基于传统搜索引擎的局限性，网络爬虫应运而生，本书从基本的爬虫原理开始讲解，通过介绍Pthyon编程语言和Web前端基础知识引领读者入门，之后介绍动态爬虫原理以及Scrapy爬虫框架，最后介绍大规模数据下分布式爬虫的设计以及PySpider爬虫框架等。

2019-02-26

数据结构(C++语言版)第三版答案解析_邓俊辉

习题解析！习题解析！习题解析！习题解析！数据结构配套的教材请查看我的另外一个文档http://download.csdn.net/download/sscc_learning/10255422 配合邓俊辉老师的课程学习更好！可以在B站搜索“数据结构与算法设计清华大学” 数据结构与算法习题解析第 4 版清华大学出版社 2015年9月版本

2018-02-23

Python机器学习及实践-从零开始通往Kaggle竞赛之路

本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者，从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，逐步带领读者熟悉并且掌握当下最流行的机器学习、数据挖掘与自然语言处理工具，如Scikitlearn、NLTK、Pandas、gensim、XGBoost、Google Tensorflow等。全书共分4章。第1章简介篇，介绍机器学习概念与Python编程知识；第2章基础篇，讲述如何使用Scikitlearn作为基础机器学习工具；第3章进阶篇，涉及怎样借助高级技术或者模型进一步提升既有机器学习系统的性能；第4章竞赛篇，以Kaggle平台为对象，帮助读者一步步使用本书介绍过的模型和技巧，完成三项具有代表性的竞赛任务。

2019-02-26

21个项目玩转深度学习：基于Tensorflow的实践详解

《21 个项目玩转深度学习——基于TensorFlow 的实践详解》以实践为导向，深入介绍了深度学习技术和TensorFlow 框架编程内容。通过本书，读者可以训练自己的图像识别模型、进行目标检测和人脸识别、完成一个风格迁移应用，还可以使用神经网络生成图像和文本，进行时间序列预测、搭建机器翻译引擎，训练机器玩游戏。全书共包含21 个项目，分为深度卷积网络、RNN网络、深度强化学习三部分。读者可以在自己动手实践的过程中找到学习的乐趣，了解算法和编程框架的细节，让学习深度学习算法和TensorFlow 的过程变得轻松和高效。本书代码基于TensorFlow 1.4 及以上版本，并介绍了TensorFlow 中的一些新特性。本书适合有一定机器学习基础的学生、研究者或从业者阅读，尤其是希望深入研究TensorFlow 和深度学习算法的数据工程师，也适合对人工智能、深度学习感兴趣的在校学生，以及希望进入大数据应用的研究者。

2019-02-26

Spark快速大数据分析

目录推荐序 xi 译者序 xiv 序 xvi 前言 xvii 第1章 Spark数据分析导论 1 1.1 Spark是什么 1 1.2 一个大一统的软件栈 2 1.2.1 Spark Core 2 1.2.2 Spark SQL 3 1.2.3 Spark Streaming 3 1.2.4 MLlib 3 1.2.5 GraphX 3 1.2.6 集群管理器 4 1.3 Spark的用户和用途 4 1.3.1 数据科学任务 4 1.3.2 数据处理应用 5 1.4 Spark简史 5 1.5 Spark的版本和发布 6 1.6 Spark的存储层次 6 第2章 Spark下载与入门 7 2.1 下载Spark 7 2.2 Spark中Python和Scala的shell 9 2.3 Spark 核心概念简介 12 2.4 独立应用 14 2.4.1 初始化SparkContext 15 2.4.2 构建独立应用 16 2.5 总结 19 第3章 RDD编程 21 3.1 RDD基础 21 3.2 创建RDD 23 3.3 RDD操作 24 3.3.1 转化操作 24 3.3.2 行动操作 26 3.3.3 惰性求值 27 3.4 向Spark传递函数 27 3.4.1 Python 27 3.4.2 Scala 28 3.4.3 Java 29 3.5 常见的转化操作和行动操作 30 3.5.1 基本RDD 30 3.5.2 在不同RDD类型间转换 37 3.6 持久化( 缓存) 39 3.7 总结 40 第4章键值对操作 41 4.1 动机 41 4.2 创建Pair RDD 42 4.3 Pair RDD的转化操作 42 4.3.1 聚合操作 45 4.3.2 数据分组 49 4.3.3 连接 50 4.3.4 数据排序 51 4.4 Pair RDD的行动操作 52 4.5 数据分区（进阶） 52 4.5.1 获取RDD的分区方式 55 4.5.2 从分区中获益的操作 56 4.5.3 影响分区方式的操作 57 4.5.4 示例：PageRank 57 4.5.5 自定义分区方式 59 4.6 总结 61 第5章数据读取与保存 63 5.1 动机 63 5.2 文件格式 64 5.2.1 文本文件 64 5.2.2 JSON 66 5.2.3 逗号分隔值与制表符分隔值 68 5.2.4 SequenceFile 71 5.2.5 对象文件 73 5.2.6 Hadoop输入输出格式 73 5.2.7 文件压缩 77 5.3 文件系统 78 5.3.1 本地/“常规”文件系统 78 5.3.2 Amazon S3 78 5.3.3 HDFS 79 5.4 Spark SQL中的结构化数据 79 5.4.1 Apache Hive 80 5.4.2 JSON 80 5.5 数据库 81 5.5.1 Java数据库连接 81 5.5.2 Cassandra 82 5.5.3 HBase 84 5.5.4 Elasticsearch 85 5.6 总结 86 第6章 Spark编程进阶 87 6.1 简介 87 6.2 累加器 88 6.2.1 累加器与容错性 90 6.2.2 自定义累加器 91 6.3 广播变量 91 6.4 基于分区进行操作 94 6.5 与外部程序间的管道 96 6.6 数值RDD 的操作 99 6.7 总结 100 第7章在集群上运行Spark 101 7.1 简介 101 7.2 Spark运行时架构 101 7.2.1 驱动器节点 102 7.2.2 执行器节点 103 7.2.3 集群管理器 103 7.2.4 启动一个程序 104 7.2.5 小结 104 7.3 使用spark-submit 部署应用 105 7.4 打包代码与依赖 107 7.4.1 使用Maven构建的用Java编写的Spark应用 108 7.4.2 使用sbt构建的用Scala编写的Spark应用 109 7.4.3 依赖冲突 111 7.5 Spark应用内与应用间调度 111 7.6 集群管理器 112 7.6.1 独立集群管理器 112 7.6.2 Hadoop YARN 115 7.6.3 Apache Mesos 116 7.6.4 Amazon EC2 117 7.7 选择合适的集群管理器 120 7.8 总结 121 第8章 Spark调优与调试 123 8.1 使用SparkConf配置Spark 123 8.2 Spark执行的组成部分：作业、任务和步骤 127 8.3 查找信息 131 8.3.1 Spark网页用户界面 131 8.3.2 驱动器进程和执行器进程的日志 134 8.4 关键性能考量 135 8.4.1 并行度 135 8.4.2 序列化格式 136 8.4.3 内存管理 137 8.4.4 硬件供给 138 8.5 总结 139 第9章 Spark SQL 141 9.1 连接Spark SQL 142 9.2 在应用中使用Spark SQL 144 9.2.1 初始化Spark SQL 144 9.2.2 基本查询示例 145 9.2.3 SchemaRDD 146 9.2.4 缓存 148 9.3 读取和存储数据 149 9.3.1 Apache Hive 149 9.3.2 Parquet 150 9.3.3 JSON 150 9.3.4 基于RDD 152 9.4 JDBC/ODBC服务器 153 9.4.1 使用Beeline 155 9.4.2 长生命周期的表与查询 156 9.5 用户自定义函数 156 9.5.1 Spark SQL UDF 156 9.5.2 Hive UDF 157 9.6 Spark SQL性能 158 9.7 总结 159 第10章 Spark Streaming 161 10.1 一个简单的例子 162 10.2 架构与抽象 164 10.3 转化操作 167 10.3.1 无状态转化操作 167 10.3.2 有状态转化操作 169 10.4 输出操作 173 10.5 输入源 175 10.5.1 核心数据源 175 10.5.2 附加数据源 176 10.5.3 多数据源与集群规模 179 10.6 24/7不间断运行 180 10.6.1 检查点机制 180 10.6.2 驱动器程序容错 181 10.6.3 工作节点容错 182 10.6.4 接收器容错 182 10.6.5 处理保证 183 10.7 Streaming用户界面 183 10.8 性能考量 184 10.8.1 批次和窗口大小 184 10.8.2 并行度 184 10.8.3 垃圾回收和内存使用 185 10.9 总结 185 第11章基于MLlib的机器学习 187 11.1 概述 187 11.2 系统要求 188 11.3 机器学习基础 189 11.4 数据类型 192 11.5 算法 194 11.5.1 特征提取 194 11.5.2 统计 196 11.5.3 分类与回归 197 11.5.4 聚类 202 11.5.5 协同过滤与推荐 203 11.5.6 降维 204 11.5.7 模型评估 206 11.6 一些提示与性能考量 206 11.6.1 准备特征 206 11.6.2 配置算法 207 11.6.3 缓存RDD以重复使用 207 11.6.4 识别稀疏程度 207 11.6.5 并行度 207 11.7 流水线API 208 11.8 总结 209 作者简介 210 封面介绍 210

2019-02-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Python爬虫开发与项目实战

数据结构(C++语言版)第三版 答案解析_邓俊辉

Python机器学习及实践-从零开始通往Kaggle竞赛之路

21个项目玩转深度学习：基于Tensorflow的实践详解

Spark快速大数据分析

空空如也

数据结构(C++语言版)第三版答案解析_邓俊辉