大数据
你看这人,真菜
没啥就是个菜鸡
展开
-
数据挖掘顶级会议与期刊分析
JournalsACM TKDD http://tkdd.cs.uiuc.edu/DMKD http://www.springerlink.com/content/1573-756X/?p=859c3e83455d41679ef1be783e923d1d&pi=0IEEE TKDE http://www.ieee.org/organizations/pubs/transactions...转载 2019-12-03 16:35:26 · 513 阅读 · 0 评论 -
社交网络及其反欺诈应用
1 定义社交网络在维基百科中的定义是“由许多节点构成的一种社会网络。节点通常是指个人或组织,而社交网络代表着各种社会关系”。简单来说,社交网络由一组个人和他们之间的关系组成。2 主要组成部分节点(node):社交网络的节点,代表一个人,用账号表示。边(edge):社交网络的连线,代表用户与用户之间的联系。有向图(directed graph):用户联系是有方向的社...原创 2019-10-15 10:11:19 · 573 阅读 · 0 评论 -
Hadoop部署文档--生产
对于hadoop的安装配置,是从配置环境开始之前做好工作的铺垫是master,slave1,slave2,slave3上成功安装java8版本,成功安装zookeeper。本集群的配置是一个master节点,三台slave节点。1 安装包下载解压-1 下载hadoop安装包并 解压压缩包#解压到在/usr/local/share文件夹下2 配置hadoop环境变量hadoop采...原创 2019-08-07 08:08:43 · 384 阅读 · 0 评论 -
spark 部署文档--生产环境
一 下载spark安装包安装的第一步就是下载spark安装包,从官网进行下载spark的官网是:http://spark.apache.org/downloads.html下载的时候要按照自己hadoop的版本进行衡量,这里下载的是spark-2.0.0-bin-hadoop2.7 版本。下载成功后使用解压命令解压在opt目录下即可解压命令为: tar -xzvf 压缩包...原创 2019-08-07 08:18:01 · 576 阅读 · 0 评论 -
导入数据到数据库
拿到手的所有的经侦数据,里面主要包括客户基本信息表,开户基本信息表,账户交易明细表三种类型的数据,存储数据到数据库,就要建表,建表就要确定表内到底有多少字段,这些字段是什么?显然 ,挨个去找每个表里的字段不太现实,借助python的for循环来实现。获取所有文件列表这里为了防止出错,新建一个单独的readfile.py文件进行获取字段操作用python的循环遍历,实现代码如下# -*...原创 2019-08-28 08:55:09 · 505 阅读 · 0 评论 -
多表联合查询求和(一)--使用Spark 的HiveContext 单条 select 实现
要解决的问题是:从A 表里获得交易卡号和对手账号,分别到B表查询其对应的姓名和身份证号,最终获得,a,b 打了多少钱最后呈现的数据格式为:(用户A, 身份证号A, 用户B, 身份证号B, 转账金额 )整体功能实现代码如下:create table sumhivecontextasselect Ao.openAccountIdNumber as A_ID, Ao.nameOfTheAcco...原创 2019-08-28 09:40:28 · 480 阅读 · 0 评论 -
多表联合查询(二)--使用Spark 的Dataframe 结构实现
在HiveContent 实现了求和之后,进行dataframe的学习,然后实现和上个一样的功能。初步了解dataframe原创 2019-08-28 17:45:17 · 3210 阅读 · 0 评论 -
kafka 安装与测试 (slave1,slave2,slave3)
1 下载kafka的安装包使用下面的命令:wget https://mirrors.tuna.tsinghua.edu.cn/apache/kafka/2.3.0/kafka_2.11-2.3.0.tgz2 解压Kafka并重命名使用下面的命令:tar -zxvf kafka_2.11-2.3.0.tgzmv kafka_2.11-2.3.0 kafka3 配置环境...原创 2019-07-20 19:42:08 · 836 阅读 · 1 评论 -
Hadoop调度策略
在配置hadoop的过程中,调度策略很重要但是,在修改调度策略配置的时候,没有找到具体的策略配置在哪个文件中经过查询和亲身实践,记得目录是在$HADOOP_HOME/hadoop/tools/sls/sample_conf如果有用到jar包,存放位置也是一个很大的问题,jar包要放在你$HADOOP_HOME下面的lib里面在本项目中,是在第一个hadoop里面的lib里面...原创 2019-07-13 08:11:33 · 162 阅读 · 0 评论 -
Hadoop 部署安装与可用性测试教程
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throug...原创 2019-07-14 10:57:42 · 844 阅读 · 0 评论 -
spark 集群的分布式安装与可用性测试教程
一 下载spark安装包安装的第一步就是下载spark安装包,从官网进行下载spark的官网是:http://spark.apache.org/downloads.html下载的时候要按照自己hadoop的版本进行衡量,这里下载的是2.4.3版本可以使用命令直接在服务器上进行下载wget https://www.apache.org/dyn/closer.lua/spark/spark...原创 2019-07-14 18:07:24 · 341 阅读 · 0 评论 -
spark出现 Unable to load native-hadoop library for your platform 解决方案
启动Spark on YARN首先进入到bin目录下,在控制台输入命令:spark-shell --master yarn --deploy-mode client出现下面的错误:报错原因:内存资源给的过小,yarn直接kill掉进程,则报rpc连接失败、ClosedChannelException等错误。解决方法:先停止YARN服务,然后修改yarn-site.xml,增加如下...原创 2019-07-14 20:38:43 · 1605 阅读 · 0 评论 -
Hadoop 搭建出现 未找到命令解决方案
在Hadoop配置文件全部导入之后,进行集群环境的测试,再次过程中,出现了未找到命令错误针对这个错误,做了很多尝试,首先,看到这个错误,我们应该是要想到未找到命令,证明在我们搜索的路径下是没有这个命令和配置的,设想这可能与我们的环境变量有关。其次,既然在这个地方是找不到这条命令的,那么需要自行核实命令写的是否正确,如果确定正确,用find命令去查找一下这个命令到底存在于哪个位置,这里使用...原创 2019-07-11 14:35:44 · 2290 阅读 · 0 评论 -
Spark ----基本架构及原理学习
本文内容参考:https://www.cnblogs.com/cxxjohnson/p/8909578.html1 架构及生态通常当需要处理的数据量超过了单机尺度(比如我们的计算机有4GB的内存,而我们需要处理100GB以上的数据)这时我们可以选择spark集群进行计算,有时我们可能需要处理的数据量并不大,但是计算很复杂,需要大量的时间,这时我们也可以选择利用spark集群强大的计算资源,并...转载 2019-07-08 09:15:45 · 154 阅读 · 0 评论 -
Hadoop 出现用户定义错误解决方案
出现的错误如下:代码问题如下:ERROR: Attempting to operate on hdfs namenode as rootERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.Starting datanodesERROR: Attempting to operate on hdfs d...原创 2019-07-11 15:14:58 · 2189 阅读 · 3 评论 -
数据转储(Kafka-spark-hive)
1问:kafka输出的是什么样子的数据?1答:一般是json类型的数据。2问:sparkstreaming 怎么处理来自kafka的数据?2答:有两种模式。可利用Receiver 的方式,或者不利用。3问:sparkstreaming处理完的数据输出是什么形式?3答:json可以转换为DataFrame4问:spark处理后的数据怎么存储到hive中?4答:将DataFrame写进...原创 2019-10-08 22:30:11 · 372 阅读 · 0 评论 -
重配hadoop的步骤记录及踩过的坑
-1下载hadoop安装包Wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.1.2/hadoop-3.1.2.tar.gz2 解压压缩包tar -xzvf hadoop-3.1.2.tar.gz3 添加配置文件把现在hadoop3.1.2 重命名 为hadoop 这样不需要重新配置...原创 2019-07-17 10:54:22 · 315 阅读 · 0 评论 -
吞吐量与带宽
**吞吐量是指对网络、设备、端口、虚电路或其他设施,单位时间内成功地传送数据的数量(以比特、字节来测量)带宽网络带宽是指在单位时间(一般指的是1秒钟)内能传输的数据量。网络和高速公路类似,带宽越大,就类似高速公路的车道越多,其通行能力越强。所谓带宽,是“频带宽度”的简称,原是通讯和电子技术中的一个术语,指通讯线路或设备所能传送信号的范围。而网络中的带宽是指在规定时间内从一端流到另...原创 2019-07-17 09:20:20 · 5655 阅读 · 0 评论 -
终端 linux 常用操作命令
最近,开始接触服务器,也就开始接触命令行,原创 2019-07-13 08:00:16 · 104 阅读 · 0 评论