2015年07月_Xeon-Shao

12月 11月 10月 09月 08月 07月 05月 04月 01月

转载 java写入文件的几种方法分享

本文转自http://www.jb51.net/article/47062.htm，所有权利归原作者所有。一，FileWritter写入文件FileWritter, 字符流写入字符到文件。默认情况下，它会使用新的内容取代所有现有的内容，然而，当指定一个true （布尔）值作为FileWritter构造函数的第二个参数，它会保留现有的内容，并追加新内容在文件的末尾。1. 替换所有现有的内

2015-07-30 16:43:31 489

转载 Scala数组操作

数组要点若长度固定则使用Array，若长度可能有变化则使用ArrayBuffer；提供初始值时不要使用new；用()来访问元素；用for(elem例子：[plain] view plaincopyimport scala.collection.mutable.ArrayBuffer; object HelloWorld

2015-07-30 11:28:22 671

转载 SparkStreaming找不到reduceByKey的解决方法

本文转自http://www.68idc.cn/help/jiabenmake/qita/20150115172034.html，所有权力归原作者所有。本文中的问题可能是个很低级的问题，但是对我对Spark程序的认识很可能有巨大影响哦~今天写了一个SparkStreaming的测试代码，简单的测试流式读取HDFS中的文件，然后统计WordCount。代码如下：packagecom.

2015-07-29 21:42:49 2180

转载每天一个linux命令（15）：tail 命令

本文介绍Linux下tail命令的使用方法。linux tail命令用途是依照要求将指定的文件的最后部分输出到标准设备，通常是终端，通俗讲来，就是把某个档案文件的最后几行显示到终端上，假设该档案有更新，tail会自己主动刷新，确保你看到最新的档案内容。一、tail命令语法tail [ -f ] [ -c Number | -n Number | -m Number |

2015-07-29 21:27:17 446

转载 Flume NG 简介及配置实战

目录[-]1、Flume 的一些核心概念：1.1 数据流模型1.2 高可靠性1.3 可恢复性2、Flume 整体架构介绍2.1 Exec source2.2 Spooling Directory Source3、常用架构、功能配置示例3.1 先来个简单的：单节点 Flume 配置3.2 单节点 Flume 直接写入 HDFS3.3 来一个常见架构

2015-07-29 21:25:56 589

翻译 Flume 开发者指南V1.5.2

介绍概述Apache Flume是一个用来从很多不同的源有效地收集，聚集和移动大量的日志数据到一个中心数据仓库的分布式的，可靠的和可用的系统。Apache Flume是Apache软件基金会的顶级项目。目前有两个可获得的发布代码路线，0.9.x版本和1.x版本。本文档适用于1.x代码线。对于0.9.x代码线，请看Flume 0.9.x开发指南。结构数据流模型一个Eve

2015-07-25 20:14:21 2253

转载为什么同现矩阵*评分矩阵=推荐结果？

本文转自http://f.dataguru.cn/thread-229459-1-1.html，所有权力归原作者所有。对文章中一些描述比较含糊的地方作了修改。举一个用户3 对物品102 是否感兴趣的例子:用户3对所有物品的评分，评分不为0说明用户3喜欢这东西用户ID物品ID1用户评分31

2015-07-25 17:19:56 1888

转载 mark

http://blog.sina.com.cn/s/blog_13122bdbc0102uyor.htmlhttp://blog.sina.com.cn/s/blog_13122bdbc0101k2cs.htmlhttp://blog.sina.com.cn/s/blog_5742944d0102vftb.htmlhttp://www.tuicool.com/articles/

2015-07-24 21:40:35 468

转载 Spark 调优

本文转自http://www.oschina.net/translate/spark-tuning?print，所有权力归原作者所有。因为大部分Spark程序都具有“内存计算”的天性，所以集群中的所有资源：CPU、网络带宽或者是内存都有可能成为Spark程序的瓶颈。通常情况下，如果数据完全加载到内存那么网络带宽就会成为瓶颈，但是你仍然需要对程序进行优化，例如采用序列化的方式保存RDD数据（Re

2015-07-24 21:36:51 447

转载 Spark性能优化的10大问题及其解决方案

本文转自http://book.51cto.com/art/201409/453045.htm，所有权力归原作者所有。Spark性能优化的10大问题及其解决方案问题1：reduce task数目不合适解决方式：需根据实际情况调节默认配置，调整方式是修改参数spark.default.parallelism。通常，reduce数目设置为core数目的2到3倍。

2015-07-24 21:26:55 696

翻译 Spark Streaming和Flume集成指南V1.4.1

Apache Flume是一个用来有效地收集，聚集和移动大量日志数据的分布式的，可获得的服务。这里我们解释一下怎样配置Flume和Spark Streaming来从Flume获取数据。这里有两个方法。Python API：Flume现在还不支持PythonAPI 方法1：Flume风格的推方法Flume被设计用来在Flume代理之间推送数据。在这种方法中，Spark Streami

2015-07-24 08:20:21 1361

转载让效率“爆表”的49个数据可视化工具

工欲善其事，必先利其器。好的工具可以大大提升你的工作效率，并获得身边人的羡慕和赞赏。今天，我们就来向小伙伴们分享一大波非常实用的工具，武装你的大脑。▲图表类iCharts简介：各种主题的开放图表资源。网址：http://www.icharts.in图示：Fusion Charts Suit XT简介：JavaScript 图表库，可创

2015-07-23 16:01:18 6197 2

转载 Spark: sortBy和sortByKey函数详解

在很多应用场景都需要对结果数据进行排序，Spark中有时也不例外。在Spark中存在两种对RDD进行排序的函数，分别是 sortBy和sortByKey函数。sortBy是对标准的RDD进行排序，它是从Spark 0.9.0之后才引入的（可以参见SPARK-1063）。而sortByKey函数是对PairRDD进行排序，也就是有Key和Value的RDD。下面将分别对这两个函数的实现以及使用进

2015-07-22 11:37:36 6265

翻译 Spark机器学习库MLib分类和回归文档V1.4.1（翻译）

Spark MLib分类与回归MLlib支持各种方法二分类，多分类，和回归分析。下表概述了每个类型的问题支持的算法。问题类型支持的方法二分类线性支持向量机，Logistic回归，决策树，朴素贝叶斯多类分类决策树，朴素贝叶斯回归线性最小二乘，Lasso，岭回归，决策树

2015-07-21 19:49:15 3051

转载科普：Windows下Netcat使用手册

本文转自https://www.91ri.org/7761.html，稍作修改，所有权力归原作者所有。简介：在网络工具中有“瑞士军刀”美誉的NetCat（以下简称nc），在我们用了N年了至今仍是爱不释手。因为它短小精悍（这个用在它身上很适合，现在有人已经将其修改成大约10K左右，而且功能不减少）。参数格式连接到某处：nc [-options] hostnam

2015-07-20 14:48:08 40368 1

转载第十章：在Spark集群上掌握比较重要的图操作之Computing Degree

Degree是离散数学的概念，在Spark GraphX中把Degree分为inDgrees、outDegrees、degrees等三种不同的degree，以下图为例：在上面这张图中，顶点5的inDgrees是1、outDegrees是2、degrees是3；Degree是GraphOps中的成员，源码如下所示：方向控制的时候是由EdgeDir

2015-07-16 17:38:38 1091

转载第九章：在Spark集群上掌握比较重要的图操作之Structural Operators

Spark GraphX中属于Structural Operators的操作主要有reverse、subgraph、mask、groupEdges等几种函数，他们在Graph中的源码分别如下所示：上述函数中用发比较多的是subgraph，下面我们看一下如何使用subgraph。首先看一下基于web-Google.txt构建的graph有多少vertices：

2015-07-16 17:35:16 701

转载第八章：在Spark集群上掌握比较重要的图操作之Property Operators（2）

从结果上看是符合我们预期的。如果要对边进行操作，基本和前面一样，首先我们看一下边元素的具体信息：此时我们把所有的边的属性变成2并查看其执行结果：上述操作的attr是来自Edge的属性，其源码如下所示：我们会发现Edge对象中都会包含attr属性。接下来我们操作使用一下mapTriplets，这里的例子是

2015-07-16 17:33:52 501

转载第八章：在Spark集群上掌握比较重要的图操作之Property Operators（1）

本部分的内容专注于集群上Property Operator的内容，其中比较重要的就是mapVertices、mapEdges和mapTriplets，即对顶点进行map、对边进行map、对Triplets进行map，在Graph中其方法分别如下所示：首先来看一下graph实例中的10个元素的具体的值：可以看到这个10个顶点元素中每个顶

2015-07-16 17:32:51 556

转载第七章：在Spark集群上使用文件中的数据加载成为graph并进行操作（3）

你可以调整graph的构造参数来指定partition的数量。当数据加载完毕的时候整个web-Googel.txt就缓存进了内存之中，如下所示：可以看到数据被缓存成了edges。下面我们使用把minEdgePartitions为4：此时我们看一下Web控制台会发现Spark集群会使用4个task来运行任务：此时查看一

2015-07-16 17:28:56 653

转载第七章：在Spark集群上使用文件中的数据加载成为graph并进行操作（2）

Spark-shell启动后我们可以在控制台看到起运行信息：点击作业ID即可查看Spark shell运行信息：下面我们就开始在集群上通过读取hdfs文件的方式来构建graph对象，首先要做的就是引入相关的包，如下所示：然后通过加载hdfs中的web-Google.txt来构建graph，如下所示：在load的过程中，

2015-07-16 17:27:28 875

转载 GraphX主要的接口详解

GraphX主要提供了如下图所示的5类操作接口：为了详细了解每一个图运算符的功能，我在Spark集群中，运行了这些方法，其中采用Spark GraphX官方网站提供的图，进行操作，如下：首先，在Spark Shell中运行一下代码，存储这张图：import org.apache.spark._import org.apach

2015-07-16 11:10:33 2257 1

转载 GraphX:基于Spark的弹性分布式图计算系统

1 引言在了解GraphX之前，需要先了解关于通用的分布式图计算框架的两个常见问题：图存储模式和图计算模式。1.1 图存储模式巨型图的存储总体上有边分割和点分割两种存储方式。2013年，GraphLab2.0将其存储方式由边分割变为点分割，在性能上取得重大提升，目前基本上被业界广泛接受并使用。边分割（Edge-Cut）：每个顶点都存储一次，但有的边会被打断分到

2015-07-16 09:16:43 2848

转载 python实现爬虫下载美女图片

本文转自http://blog.csdn.net/hello_katty/article/details/46887937，所有权力归原作者所有。本次爬取的贴吧是百度的美女吧，给广大男同胞们一些激励在爬取之前需要在浏览器先登录百度贴吧的帐号，各位也可以在代码中使用post提交或者加入cookie爬行地址：http://tieba.baidu.com/f?kw=%E7%B

2015-07-15 20:19:47 721

翻译 Spark编程指南V1.4.0(翻译)

Spark编程指南V1.4.0· 简介· 接入Spark· Spark初始化 · 使用Shell · 在集群上部署代码· 弹性分布式数据集 · 并行集合(Parallelized Collections) ·

2015-07-14 14:59:16 2418

转载每天一个linux命令(1)：ls命令

ls命令是linux下最常用的命令。ls命令就是list的缩写缺省下ls用来打印出当前目录的清单如果ls指定其他目录那么就会显示指定目录里的文件及文件夹清单。通过ls 命令不仅可以查看linux文件夹包含的文件而且可以查看文件权限(包括目录、文件夹、文件权限)查看目录信息等等。ls 命令在日常的linux操作中用的很多!1. 命令格式：ls [选项] [目录名]2. 命令功

2015-07-11 16:22:30 554

转载通过可视化来了解你的Spark应用程序

学长推荐阅读文章，先mark到博客里，原文地址http://www.csdn.net/article/2015-07-08/2825162#rd，所有权力归原作者所有。摘要：在过去，Spark UI一直是用户应用程序调试的帮手。而在最新的Spark 1.4版本中，一个新的因素被注入到Spark UI——数据可视化。【编者按】在"Spark 1.4：SparkR发布，钨丝计划锋芒

2015-07-10 21:29:11 979

转载 linux之cp/scp命令＋scp命令详解

本文转自http://www.cnblogs.com/hitwtx/archive/2011/11/16/2251254.html，所有权力归原作者所有。名称：cp使用权限：所有使用者使用方式：cp [options] source destcp [options] source... directory说明：将一个档案拷贝至另一档案，或将数个档案拷贝至另一目录。

2015-07-10 17:19:34 593

转载 HDFS Shell基本操作总结

本文转自http://www.mc2lab.com/?p=444，所有权利归原作者所有。1.HDFS Shell基本操作总结1.1 浏览你的HDFS目录[root@slave1 bin]# hadoop fs -ls1.2 上传数据到HDFS上传：[root@slave1 bin]# hadoop fs -put ../conf input检查已上传的数据：

2015-07-10 17:09:27 1267

转载 Spark:Yarn-cluster和Yarn-client区别与联系

我们都知道Spark支持在yarn上运行，但是Spark on yarn有分为两种模式yarn-cluster和yarn-client，它们究竟有什么区别与联系？阅读完本文，你将了解。　　Spark支持可插拔的集群管理模式(Standalone、Mesos以及YARN )，集群管理负责启动executor进程，编写Spark application 的人根本不需要知道Spark用的是什么集

2015-07-10 08:02:00 1580

转载 cygwin安装教程图解

本文主要转自http://www.33lc.com/article/7276_4.html，并在此基础上结合实践和其他教程做了补充和修改。cygwin是一个windows平台上的unix模拟环境，主要是通过重新编译，将posix系统上的软件移植到windows上。相信很多朋友想安装cygwin，但是不知道怎么安装，因为都是英语，对于跟英语不感冒的人来说是件痛苦的事，下面绿茶小编

2015-07-09 11:58:07 1322

转载 IntelliJ IDEA下project概念和module的概念解释

本文转自：http://note.youdao.com/share/?id=3a1502591870fc1fa9f492056bd95337&type=note ，所有权力归原作者所有。本文短地址：http://t.cn/8F0PvQd ===================================================在IntelliJ IDEA

2015-07-08 11:57:16 10573 1

本文转自http://www.beanmoon.com/2014/10/11/%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8intellij%E6%90%AD%E5%BB%BAspark%E5%BC%80%E5%8F%91%E7%8E%AF%E5%A2%83%EF%BC%88%E4%B8%8B%EF%BC%89/，所有权力归原作者所有。（吐槽一句，CSDN这个排版也是...

2015-07-08 11:26:01 1424

原创如何使用IntelliJ IDEA搭建spark开发环境（上）

本文部分转自http://www.beanmoon.com/2014/10/11/%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8intellij%E6%90%AD%E5%BB%BAspark%E5%BC%80%E5%8F%91%E7%8E%AF%E5%A2%83/，其中有自己在实践中遇到的一些问题的记录，仅用来学习记录，所有权利归原作者所有。现在这个网址已经访问不了了...

2015-07-08 11:22:12 4237

转载从WordCount看Spark大数据处理的核心机制（2）

本文转自http://mp.weixin.qq.com/s?__biz=MzA5MTcxOTk5Mg==&mid=208059053&idx=3&sn=1157ab5db7bc2783e812e3dc14a0b92e&scene=18#rd，所有权力归原作者所有。在上一篇文章中，我们讲了Spark大数据处理的可扩展性和负载均衡，今天要讲的是更为重点的容错处理，这涉及到Spark的应用场

2015-07-07 17:29:12 621

转载从WordCount看Spark大数据处理的核心机制（1）

本文转自http://mp.weixin.qq.com/s?__biz=MzA5MTcxOTk5Mg==&mid=208059053&idx=2&sn=fc3a8d88663038ce7c6b127460a33158&scene=18#rd，所有权力归原作者所有。大数据处理肯定是分布式的了，那就面临着几个核心问题：可扩展性，负载均衡，容错处理。Spark是如何处理这些问题的呢？接着上一篇的

2015-07-07 17:21:17 794

转载【Spark大数据处理】动手写WordCount

本文转自http://mp.weixin.qq.com/s?__biz=MzA5MTcxOTk5Mg==&mid=207906066&idx=1&sn=f9cc48a55343684c69165254588eeb5a&scene=5#rd，所有权力归原作者所有。Spark是主流的大数据处理框架，具体有啥能耐，相信不需要多说。我们开门见山，直接动手写大数据界的HelloWor

2015-07-07 17:20:17 700

转载 MySQL+Hibernate下连接空闲8小时自动断开问题解决方案

本文转自http://blog.sina.com.cn/s/blog_6e6bbaf20100uocd.html，所有权利归原作者所有。前段时间刚完成一个项目，数据库为MySQL5.0，持久层使用Hibernate 3.2，没有使用额外的连接池，那么Hibernate会默认使用它自带的一个默认连接池，也就是 DriverManagerConnectionProvider。问题是待机一晚

2015-07-06 09:02:44 1824

PHP pgsql驱动文件

PHP pgsql linux平台驱动文件（so文件），适用于PHP7.2版本。用于PHP连接PostgreSQL数据库。包含pgsql.so，pdo_pgsql.so两个文件。

2022-05-13

feralpacket.ini.txt

SecureCRT关键词高亮配置文件配置文件放置路径C:\Users\[你的系统账户名]\AppData\Roaming\VanDyke\Config 将文件后缀名修改为.ini 在session options中设置高亮配置方案为feralpacket

2020-05-13

idea-plugin.zip

idea增强插件，启用此插件后，写代码不会再出现bug /* _ooOoo_ o8888888o 88" . "88 (| -_- |) O\ = /O ____/`---'\____ .' \\| |// `. / \\||| : |||// \ / _||||| -:- |||||- \ | | \\\ - /// | | | \_| ''\---/'' | | \ .-\__ `-` ___/-. / ___`. .' /--.--\ `. . __ ."" '< `.___\__/___.' >'"". | | : `- \`

2019-11-18

TA关注的人

PHP pgsql驱动文件

feralpacket.ini.txt

idea-plugin.zip

RESTfull Web Service中文版

在使用Spark Streaming向HDFS中保存数据时，文件内容会被覆盖掉，怎么解决？

对Spark RDD中的数据进行处理