PeixinYe-CSDN博客

原创 Hive配置参数说明和配置注意事项

hive.metastore.warehouse.dir该参数指定了 Hive 的数据存储目录，默认位置在 HDFS 上面的 /user/hive/warehouse 路径下。hive.exec.scratchdir该参数指定了 Hive 的数据临时文件目录，默认位置为 HDFS 上面的 /tmp/hive 路径下。更多配置参数说明：https://my.oschina.net/HIJAY/blo...

2018-06-06 13:14:37 1049

原创 HBASE安装与配置

这个比较简单，配置如下：hbase/conf/hbase-site.xml<property> <name>hbase.rootdir</name> <value>hdfs://master:9000/hbase</value> </property> <property>

2018-06-06 13:12:51 392

原创 Spark在Hadoop用户下启动

问题描述：Hadoop用户下启动Spark时，Worker和Mater进程在root用户下启动而不在Hadoop用户下启动。解决方案：修改Spark所属权限：chown -R hadoop:hadoop ./spark

2018-06-06 11:10:05 1061

转载 Windows，Linux换行

Windows：\r\n;Linux:\n;Unix系统里，每行结尾只有“<换行>”，即“\n”；Windows系统里面，每行结尾是“ <回车><换行>”，即“\r\n”；Mac系统里，每行结尾是“<回车>”。一个直接后果是，Unix/Mac系统下的文件在Windows里打开的话，所有文字会变成一行；而Windows里的文件在Unix/Mac下打开的...

2018-05-17 14:46:18 717

原创 hadoop mahout FP-Growth超市数据集

http://fimi.ua.ac.be/data/像我这么不收C币，无私奉献的人不多了。快来感谢我吧。。

2018-05-11 13:26:21 2039 1

原创关于运行PI和wordcount的map100%，reduce0%问题解决方法

可能的主要原因出在etc/hosts文件中的master或者hadoop/etc/hadoop/yarn-site.xml中的指定master上，或者两者冲突，我是通过去除yarn-site.xml文件中的指定master配置来解决的。上图：...

2018-05-03 23:35:43 1503

转载 hadoop eclipse项目构建参考

有这里两篇足够了，自己瞎搞好久。。最好看一下。。http://www.powerxing.com/hadoop-build-project-using-eclipse/https://blog.csdn.net/clerk0324/article/details/52400532

2018-05-02 16:48:45 181

原创 Apriori算法实现过程

支持度、置信度、提升度就不再重复说了；不懂得参考这个：https://jingyan.baidu.com/article/9113f81b62b9c02b3214c72e.html两大定律：（大概这个意思，自己写的）1、如果一个项集是频繁项集，那么它的所有子集也是频繁项集；2、如果一个项集不是频繁项集，那么它的所有超集都不是频繁项集；上图：实现步骤：（恩，简洁明了）...

2018-05-01 12:10:04 4036 1

原创关于运行PI和wordcount的map0%，reduce0%问题解决方法

记得：没金刚钻别揽瓷器活！当然怎么说呢。。4个site.xml文件配置别搞的太高大上，用默认的就好了，这样就不会导致你机器尤其是master节点卡在map0%和reduce0%了。。。。为了明白这问题，一搞这问题又是一天啊。。。我的电脑配置：3台腾讯云：1核2G，50G；以下为我的4个site文件配置：mapred-site.xml<configuration><property...

2018-04-23 17:29:54 2933 1

原创关于 Call From master/172.27.0.5 to master:8020 failed on connection exception: 问题解决

一般来说是你的hosts文件没设置好，以前有篇说过了。。。但是！如果你确定hosts文件设置好了，却还有这个问题，这可能是你环境配置时的PATH=HADOOPXXXXX等的路径没设置好！！比较保险的办法就是：删除再新建你core-site.xml里设置路径的tmp文件夹、dfs文件夹、data文件夹、name文件夹、hadoop根目录logs文件夹，再hdfs namenode -format就这...

2018-04-23 13:21:26 12486

原创 hadoop配置注意事项OR总结

有关IP有3个文件：/etc/hosts/etc/sysconfig/network/etc/sysconfig/network-scripts/ifcfg-ethX有关hadoop环境配置的文件：/etc/profile（我是配置这个）~/.bashrc~/.bash_profilehadoop文件夹内需要配置的环境文件：./hadoop-2.7.5/etc/hadoop/hadoop-env....

2018-04-23 13:14:27 300

原创关于:8020 failed on connection exception: java.net.ConnectException: Connection refused的解决方法（二）

hadoop环境配置别忘了加PATH。。。。。。。。。经典环境配置如下：（/etc/profile）export HADOOP_HOME=/usr/local/hadoopexport HADOOP_MAPRED_HOME=$HADOOP_HOMEexport HADOOP_COMMON_HOME=$HADOOP_HOMEexport HADOOP_HDFS_HOME=$HADOOP_HOMEex...

2018-04-23 13:02:35 2517

原创关于:8020 failed on connection exception: java.net.ConnectException: Connection refused的解决方法

由于腾讯云自带的hosts文件（/etc/hosts）内有多余的其他地址，需要将其他多余自带的都删掉，只留下自己配置的，这样OK；上图：（这是完成后的，像这样就行了）...

2018-04-20 20:26:00 3854

原创安装SSH注意事项

要使authorized_keys生效必须满足一下两个条件：.ssh文件夹权限为700；authorized_keys文件的权限为600；！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！不是权限越多越好，只能是这个！！！！卡了好几天也是醉了。。...

2018-04-20 13:06:11 238

原创 hadoop安装和SSH

hadoop安装：1、到官网下载hadoop-x.x.x.tar.gz，不要下成src的了，wget （http://网址）;2、tar -zxf 源目录 -C 解压目录3、在local目录下赋权：chown -R hadoop:hadoop ./hadoop4、检查是否安装好：./bin/hadoop versionSSH安装：下载更新：yum install openssh-server；登入...

2018-04-13 16:34:38 2281

原创 Linux 用户创建、赋权、修改主机名

创建用户：adduser xxxxxx（用户名）然后设置密码：passwd xxxxx（用户名）赋sudo权限：用执行：visudo或vim /etc/sudoers找到root，在其下加入用户名+ALL学上面写即可。修改主机名：用这个最好： hostnamectl set-hostname 新主机名用hostname命令可以临时修改机器名，但机器重新启动之后就会恢复原来的值。#hostna...

2018-04-13 14:50:59 468

原创 Hadoop linux下安装JAVA环境

java_home 是否配好：echo $JAVA_HOMEhadoop是否安装检查：./bin/hadoop version步骤：1、到官网下载linux64位（或32位，看电脑系统）下载JDK包；2、tar -zxf xxxxxxxx.tar.gz 解压；3、到 vim /etc/profile文件最后加入 export JAVA_HOME=/usr/lib/jvm/（javaJDK包） e...

2018-04-13 13:47:27 1170

转载 K-means聚类算法

监督：简单的说就是利用过去已经做过的题来求解未知的题，若能解决则称为有监督；（用标签和特征标识）K-means聚类和分类的区别：有监督和无监督；K-means核心思想：1、确定K值；2、计算样本与质心距离（欧式距离），重新计算质心；3、重复计算，直到质心不再改变；簇的类型：明显分离的可以看到(a)中不同组中任意两点之间的距离都大于组内任意两点之间的距离，明显分离的簇不一定是球形的，可以具有任意的形...

2018-04-06 08:39:26 355

原创关联规则-频繁模式挖掘

基本概念：二院表示：每一行对应一个事务，每一列对应一个项，项用二元变量表示；项集：包括0个或多个项的集合，包含K个称为K-项集；事物的宽度：事务中项的个数；关联规则三个指标：Support（支持度）：表示A和B的事务所占所有事务的比例，Support=P（A&B）；Confidence（可信度）：表示包含A的事务中同时包含B的比例，Confidence=P（A&B）/P（A）；LI...

2018-04-03 22:20:06 554

原创 Mahout特点

Mahout的主要目的是实现可伸缩的机器学习算法，核心库中某些非分布式算法也具有很好的性能；目标是帮助开发人员快速建立具有机器智能的应用程序，目前比较成熟和活跃的主要包括：1、频繁模式挖掘2、聚类算法3、分类器4、推荐算法5、频繁子项挖掘...

2018-04-03 21:44:00 1502

原创今天起一天一更！

RT

2018-04-02 12:02:56 173

原创 Pregel体系结构

在Pregel计算框架中，一个大型图会被划分成许多个分区，每个分区都包含了一部分顶点以及以其为起点的边一个顶点应该被分配到哪个分区上，是由一个函数决定的，系统默认函数为hash(ID) mod N，其中，N为所有分区总数，ID是这个顶点的标识符；当然，用户也可以自己定义这个函数这样，无论在哪台机器上，都可以简单根据顶点ID判断出该顶点属于哪个分区，即使该顶点可能已经不存在了容错性：Pregel采用...

2018-03-26 20:35:43 2138

原创图计算其他补充------学习笔记

消息传递：顶点之间的通讯是借助于消息传递机制来实现的，每条消息都包含了消息值和需要到达的目标顶点ID。用户可以通过Vertex类的模板参数来设定消息值的数据类型在一个超步S中，一个顶点可以发送任意数量的消息，这些消息将在下一个超步（S+1）中被其他顶点接收一个顶点V通过与之关联的出射边向外发送消息，并且，消息要到达的目标顶点并不一定是与顶点V相邻的顶点，一个消息可以连续经过多条连通的边到达某个与顶...

2018-03-26 20:28:43 548

原创 Pregel图计算模型--------学习笔记

Pregel计算模型以有向图作为输入有向图的每个顶点都有一个String类型的顶点ID每个顶点都有一个可修改的用户自定义值与之关联每条有向边都和其源顶点关联，并记录了其目标顶点ID边上有一个可修改的用户自定义值与之关联边上有一个可修改的用户自定义值String类型的顶点ID可修改的用户自定义值在每个超步S中，图中的所有顶点都会并行执行相同的用户自定义函数每个顶点可以接收前一个超步(S-1)中发送给...

2018-03-26 20:23:41 2633

原创图计算-----学习笔记

特点：数据关联性强；常常表现出比较差的内存访问局部性针对单个顶点的处理工作过少计算过程中伴随着并行度的改变大型图计算主要包括两种：基于遍历算法的、实时的图数据库，如Neo4j、OrientDB、DEX和 Infinite Graph；以图顶点为中心的、基于消息传递批处理的并行引擎，如GoldenOrb、Giraph、Pregel和Hama，这些图处理软件主要是基于BSP模型实现的并行图处理系统；B...

2018-03-26 20:18:12 1269

原创 Samza框架-----学习笔记

基本概念：作业：是对一组输入流进行处理转化成输出流的程序。分区：Samza的流数据单位既不是Storm中的元组，也不是Spark Streaming中的DStream，而是一条条消息；Samza中的每个流都被分割成一个或多个分区，对于流里的每一个分区而言，都是一个有序的消息序列，后续到达的消息会根据一定规则被追加到其中一个分区里；任务：一个作业会被进一步分割成多个任务（Task）来执行，其中，每个...

2018-03-23 20:59:40 1073

原创 Spark Streaming总结-----学习笔记

支持多种数据源：Kafka、Flume、HDFS、普通TCP套接字等；基本原理：实时输入数据流以时间片（秒级）为单位进行拆分，然后经Spark引擎以类似批处理的方式处理每个时间片数据；Spark Streaming最主要的抽象是DStream（Discretized Stream，离散化数据流），表示连续不断的数据流。在内部实现上，Spark Streaming的输入数据按照时间片（如1秒）分成一...

2018-03-23 20:51:33 526

原创 Storm流数据框架------学习笔记

storm：Storm可用于许多领域中，如实时分析、在线机器学习、持续计算、远程RPC、数据提取加载转换等Storm具有以下主要特点：整合性简易的API可扩展性可靠的消息处理支持各种编程语言快速部署免费、开源storm主要包括：Streams、Spouts、Bolts、Topology和Stream Groupings；stream：Storm将流数据Stream描述成一个无限的Tuple序列，这...

2018-03-23 20:42:48 1189

原创流数据------学习笔记

流数据特点：实时获取来自不同数据源的海量数据，经过实时分析处理，获得有价值的信息快速持续到达；来源多，格式复杂；数据量大，但不关心存储；注重整体价值；顺序颠倒或不完整；数据的价值随着时间的流逝而降低；流计算系统要求：高性能海量式实时性分布式易用性可靠性流计算框架：商业级：IBM InfoSphere Streams；IBM StramBase（用于银行）；开源流计算框架：Twitter Storm...

2018-03-23 19:12:14 3800

原创 Spark SQL------学习笔记

Hive：转换成MapReduce作业；Shark：转换成spark作业；Hive中SQL查询的MapReduce作业转化过程Spark三种部署方式：Standalone；Spark on Mesos（官方推荐，更好支持）；Spark on YARN；Hadoop+Storm：Spark Straming无法实现毫秒级流计算响应；（需要Storm）不同的计算框架统一运行在YARN中，可以带来如下好...

2018-03-23 14:19:12 219

原创 RDD运行原理------学习笔记

RDD实现管道化，避免中间数据存储；RDD：是一个分布式对象集合，本质上是一个只读的分区记录集合，每个RDD可分成多个分区，每个分区就是一个数据集片段，并且一个RDD的不同分区可以被保存到集群中不同的节点上，从而可以在集群中的不同节点上进行并行计算；转换（Transformation）：map、join、groupby、filter等；粗粒度修改；不适合网页爬虫；实际上RDD已经被实践证明可以高效...

2018-03-23 14:11:55 1534

原创 Spark运行基本流程-----学习笔记

1、首先构建基本运行环境：Driver创建一个SparkContext，进行资源的申请、任务的分配和控制；（Shell中不需要构建，系统会自动生成一个SC）2、资源管理器为Executor分配资源，并启动Executor进程；3、SparkContext根据RDD的依赖关系构建DAG图，DAG图提交给DAGScheduler解析成Stage，然后把一个个TaskSet提交给底层调度器TaskSch...

2018-03-23 13:59:20 784

原创 Spark运行架构------学习笔记

基本概念：RDD：是Resillient Distributed Dataset（弹性分布式数据集）的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型DAG：是Directed Acyclic Graph（有向无环图）的简称，反映RDD之间的依赖关系Executor：是运行在工作节点（WorkerNode）的一个进程，负责运行TaskApplication：用户编写的Spark应...

2018-03-23 13:39:59 386

原创 Spark概述-------学习笔记

Spark特点：运行速度快：使用DAG执行引擎以支持循环数据流与内存计算；容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过Spark Shell进行交互式编程通用性：Spark提供了完整而强大的技术栈，（基于内存计算spark core)，包括SQL查询、流式计算(spark straming)、机器学习(spark MLlib)和图算法组件(spark graph...

2018-03-23 11:42:28 693

原创中国人寿面试总结

套路深，当面试官准备走的时候我才明白该说服谁。。当你需要一个人帮助的时候，他拒绝了你，你不应该放弃转身就走，应该仔细思考如何才能让他答应你的请求，应该从对方的角度去分析为什么要这样做，这样做的益处是什么；说服应该循序渐进，消除对方抗拒心理，告诉对方你会怎么做，慢慢引导；好了，就这么多了，领教了受教了，人寿一日游收获还是很大的。...

2018-03-21 13:17:12 4672

转载凯利公式-----应用

作者：贾元宏链接：https://www.zhihu.com/question/23534782/answer/108093123来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。凯利公式：f=（bp-q）/b，也即=p-q/b，（p为胜率，q为赔率，b为赔率）关于凯利公式的应用必要条件以及应用场景，我通过问答来逐步论证：（以下投资的仓位分析中假设不载考虑市场属性的问题...

2018-03-19 17:26:29 21635 2

原创 CTVE笔试2018总结C/C++

编程题：猴子爬山、str1、str2、str3混序匹配；3次握手，4次挥手；sizeof（）；strlen（）；锁相关内容；int，float，char字节数大小；.........其他想不起来了。。最不该的是编程题这个居然忘了。。内容知识比较广，有难有简单的，可惜没复习，也没准备好，基础还需扎牢。。...

2018-03-18 21:54:45 386

原创原始积累方法----总结

1、小型贸易：“先找厕所，再找食堂”，做个中介；2、推销图纸样机或技术，利用定金赚时间差；3、用知识或技术找中小国企合作；4、带别人样品去推销；...

2018-03-18 14:56:13 375

原创投资性房地产注意事项

1、GDP与房价；2、小城市与大城市区别：大城市：人口迁移和经济活力；小城市：政策性机遇（长期不如大城市）；3、未来5~7年总体机会不大（可能吧，也可能是没大机会）；4、地产投资逻辑与证券相似；...

2018-03-16 21:53:21 817

原创 Impala简介------学习笔记

Impala是由Cloudera公司开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase上的PB级大数据，在性能上比Hive高出3~30倍Impala的运行需要依赖于Hive的元数据Impala是参照 Dremel系统进行设计的Impala采用了与商用并行关系数据库类似的分布式查询引擎，可以直接与HDFS和HBase进行交互查询Impala和Hive采用相同的SQL...

2018-03-16 21:40:13 551

空空如也

空空如也