2019年08月_你看这人，真菜

原创 Kafka基本概念与了解

Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。相关术语学习：Broker：Kafka集群包含一个或多个服务器，这种服务器被称为brokerTopic每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic。（物理上不同Topic的消息...

2019-08-30 11:02:22 91

原创多表联合查询（二）--使用Spark 的Dataframe 结构实现

在HiveContent 实现了求和之后，进行dataframe的学习，然后实现和上个一样的功能。初步了解dataframe

2019-08-28 17:45:17 3210

原创多表联合查询求和（一）--使用Spark 的HiveContext 单条 select 实现

要解决的问题是：从A 表里获得交易卡号和对手账号，分别到B表查询其对应的姓名和身份证号，最终获得，a,b 打了多少钱最后呈现的数据格式为：(用户A, 身份证号A, 用户B, 身份证号B, 转账金额 )整体功能实现代码如下：create table sumhivecontextasselect Ao.openAccountIdNumber as A_ID, Ao.nameOfTheAcco...

2019-08-28 09:40:28 480

原创导入数据到数据库

拿到手的所有的经侦数据，里面主要包括客户基本信息表，开户基本信息表，账户交易明细表三种类型的数据，存储数据到数据库，就要建表，建表就要确定表内到底有多少字段，这些字段是什么？显然，挨个去找每个表里的字段不太现实，借助python的for循环来实现。获取所有文件列表这里为了防止出错，新建一个单独的readfile.py文件进行获取字段操作用python的循环遍历，实现代码如下# -*...

2019-08-28 08:55:09 505

转载上传、下载文件从服务器到本地（sftp的使用）

在终端里，输入下面的命令：sftp root@10.245.142.253连接服务器，成功输入密码后进行连接。下面的命令是下载服务器上的文件到本地get -r /opt/storm/* /Users/slq/Desktop/stormget -r /opt/kafka/* /Users/slq/Desktop/kafkaget -r /opt/hadoop-2.7.3 /* /Use...

2019-08-27 15:17:37 5462

原创 maven jar包运行操作

maven 工程目录/opt/jy/spark/sparkml/jy打包好的jar位置/root/.m2/repository/jy/jy/1.0-SNAPSHOT运行命令spark-submit --master spark://master:7077 --class HelloSparkML ./jy-1.0-SNAPSHOT.jar...

2019-08-27 15:07:29 236

转载 Spark MLlib 概况了解

MLlib是Spark的机器学习（Machine Learning）库，旨在简化机器学习的工程实践工作，并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道API。具体来说，其主要包括以下几方面的内容：算法工具：常用的学习算法，如分类、回归、聚类和协同过滤；特征化工具：特征提取、转化、降维，和选择工具；...

2019-08-27 15:06:13 242

原创 sparkml 实例文件位置及如何运行实例

纯属踩坑记录。spark本身就携带很多ml实例，java 文件位置在spark的根目录下面，有个examples文件夹，所有的实例都在里面这里以java文件进行查找看看在 cd examples/src/main/java/org/apache/spark/examples/ 目录下进入ml文件夹，就可以看到系统给的java的sparkml实例，如下图：数据存放位置在s...

2019-08-08 16:31:22 634

转载如何上传文件到hdfs？

是在学习sparkml的时候，产生了 hadf上没有数据文件的错误，如下图：发现错误之后，决定按照文件夹，上传文件到hdfs上。打开hadoop 所在的文件目录查看当前目录信息hdfs dfs -ls /运行后产生下面的效果：3 在hdfs上创建新的文件夹这里创建的为aaahdfs dfs -mkdir /aaa4 在本地创建一个新的文件夹这里创建的为aaa，建...

2019-08-08 16:19:31 27095

原创 spark 部署文档--生产环境

一下载spark安装包安装的第一步就是下载spark安装包，从官网进行下载spark的官网是：http://spark.apache.org/downloads.html下载的时候要按照自己hadoop的版本进行衡量，这里下载的是spark-2.0.0-bin-hadoop2.7 版本。下载成功后使用解压命令解压在opt目录下即可解压命令为： tar -xzvf 压缩包...

2019-08-07 08:18:01 576

原创 Hadoop部署文档--生产

对于hadoop的安装配置，是从配置环境开始之前做好工作的铺垫是master,slave1,slave2,slave3上成功安装java8版本，成功安装zookeeper。本集群的配置是一个master节点，三台slave节点。1 安装包下载解压-1 下载hadoop安装包并解压压缩包#解压到在/usr/local/share文件夹下2 配置hadoop环境变量hadoop采...

2019-08-07 08:08:43 384

原创 hive 安装与部署

下载安装包并上传解压将conf下的hive-default.xml.template文件复制为hive-site.xml修改文件内容增加如下内容：xml <property> <name>javax.jdo.option.ConnectionUserName</name>用户名（这4个是新添加的，记住删除配置文件原有的！...

2019-08-06 19:16:41 124

原创邻居好说话--冒泡排序

冒泡排序的基本思想：每次比较两个相邻的元素，如果他们的位置错误就把它们交换过来。冒泡排序过程每次比较相邻的两个数，如果后面的数比前面的大，则交换这两个数的位置。一直比较下去直到最后两个数比较完毕后，最小的一个数就是最后一个了。就如同一个气泡，一步一步往后“翻滚”，直到最后一位。所以这个排序的方法有一个很好听的名字“冒泡排序”如果有n个数进行排序，只需将n-1个数归位，就是说要...

2019-08-02 19:18:20 80

原创最快最简单的排序--桶排序

桶排序是一个速度非常快的排序算法。就好比有11个桶，编号从0～10。每出现一个数，就在对应编号的桶中放一个小旗子，最后只需要数数每个桶中有几个旗子就ok了。尝试输入n个 0～1000之间的整数，将他们从小到大排列。如果需要对数据范围在0～1000之间的整数进行排序，我们需要1001个桶，来表示0～1000之间每一个数出现的次数。每一个桶的作用其实就是“标记”每个数出现的次数。#inc...

2019-08-02 19:07:58 347

原创 vscode运行c语言程序

c语言的程序文件后缀名为 .c在vscode里面写完代码之后，在终端编译运行gcc 文件名 -o 编译后的文件名ls之后可以看到我们编译后的文件使用下面的命令可以进行文件的运行./ 编译后的文件名接着会在控制台输出结果。...

2019-08-01 22:05:12 11455

为了获得有效的算法，必须了解一些解体的基本思想和方法。对于很多问题，只要仔细分析了数据对象后，相应的处理方法就有了；对于有些问题则不然。然而，作为探寻问题求解思路的基本思想和方法，对于任何算法设计都是有用的。1 穷举法穷举法亦称作枚举法。它的基本思想是，首先根据求解问题的部分条件确定答案的大致范围，即列举出解的所有可能的情况；然后在此范围内对所有可能的情况逐一验证，若某个情况经过验证符合问题...

2019-08-01 20:22:46 6430

努力变得不菜的菜鸡的博客