大数据
文章平均质量分 79
大壮vip
博学而笃志,切问而近思。
展开
-
fatal: not in a git directory Error: Command failed with exit 128: git
brew 装redis报错:==>==>==>==>Fetching==>==>==>==>==>解决办法:既可。原创 2023-02-03 11:23:57 · 2171 阅读 · 1 评论 -
【Hive实用问题】行列转行、排序
行列转行、排序目前工作中因为编码风格的习惯,产生了部分需要适应的hive关键字,这里查阅了人民邮电出版社的《Hive编程指南》一书,同时做出一些介绍和总结,以备温故而知新。一,行列转换collect_wscollect_setcollect_listcollect_set去除重复元素;collect_list不去除重复元素+------+------------------------------...原创 2021-04-06 15:09:56 · 999 阅读 · 0 评论 -
【HBase数据开发】最新centos安装python3X做数据分析
Linux下安装Python3在Linux系统中,一般都自带Python,不过Linux下自带Python大都是 2.x版本,如果我们想要使用python3的话,最好是再重新装一个Python3的环境,让python2和python3共存。注意:最好不要删除自带的python2,因为可能有其他地方依赖python2,直接删掉的可能会导致其他的问题。下载python3安装包本次我们要安装的是 Python 3.6.8,可以在 windows 下载好上传到 Linux服务器,也可以..原创 2020-08-13 10:06:04 · 381 阅读 · 0 评论 -
【HBase数据开发】解决Python类库Happyhbase读取数据中文乱码问题
首先说问题,我们遇到如下问题,python上传csv数据到hbase,用java读取没问题,但是使用python会遇到乱码问题。以下是贴图:这种就很讨厌,所以,来说解决办法:data = str(value).encode().decode('unicode-escape').encode('raw_unicode_escape').decode()print (key, str(data))ok,搞定了...原创 2020-08-06 18:18:14 · 640 阅读 · 0 评论 -
【HBase数据开发】集群搭建NameNode未格式化
1.报错如下Encountered exception loading fsimagejava.io.IOException: NameNode is not formatted.上午10点28:19.302分 WARN FSNamesystem Encountered exception loading fsimagejava.io.IOException: NameNode is not formatted. at org.apache.hadoop.hdfs.server.name原创 2020-07-22 10:49:55 · 3915 阅读 · 0 评论 -
【HBase数据开发】zookeeper启动不了
权限不够Invalid config, exiting abnormallyservice/zookeeper/zkserver.sh: lineSevere unrecoverable error, exitingjava.io.FileNotFoundException: /var/lib/zookeeper/version-2/snapshot.0 (Permission denied)等等问题,见招拆招好了。看下报错日志XX:OnOutOfMemoryErr..原创 2020-07-22 10:32:53 · 762 阅读 · 0 评论 -
【HBase数据开发】开发环境CDH问题-主机运行状况不良
现象就是晚上来了,发现抛了一个异常,主机运行状况不佳。删除agent目录下面的cm_guid文件,并重启失败节点的agent服务恢复。cm_guid文件的内容大概是uuid,用于唯一标示agent隶属于哪一个server。如图cd到每台主机的目录/var/lib/cloudera-scm-agent下,把cm_guid文件 删除。然后重启代理服务节点命令: service cloudera-scm-agent restart重启之后即可:...原创 2020-07-22 09:33:17 · 2613 阅读 · 0 评论 -
【HBase数据开发】数据挖掘项目基石——hbase调研与集成
一、背景随着公司业务规模的扩大,需求的不断提升,数据量级也在不停的增长,公司其他兄弟部门也需要越来越多的数据需求。为此,我们部门有如下任务需要完成:1.找到客户尽量多的数据,多维度分析客户,为客户建立合理的准确的数据标签2.涉及到合法采集数据的爬虫开发,这个交给算法工程师,用python爬下来,处理一下就行了,并不用我们出马。3.由于爬取数据格式比较混乱,所以这里计划存储到hbase中,后续由应用开发人员自行处理。4.相当一部分业务数据,量级已经超过10亿级别,需要后续计划存储到hbas原创 2020-07-17 17:33:43 · 805 阅读 · 0 评论 -
【sparkstreaming写hdfs调研】调研将kafka消息,从sparkstreaming写入hdfs
rdd.saveAsTextFile("hdfs://pro-app-175:9000/user/hadoop/spark/data")Protocol message end-group tag did not match expected tag显然是我端口弄错了,所以,改成8020即可。rdd.saveAsTextFile("hdfs://pro-app-175:8020/user/hadoop/spark/data")这里我们想将来hive可用,所以,...原创 2020-06-01 17:09:14 · 532 阅读 · 0 评论 -
【maxwell】企业级生产maxwell配置与排坑指南
本篇不讨论 canal和maxwell的区别,github上面可以看到源码,并且查看项目的基本背景。首先说报错吧,第一次遇到权限不够的情况:无法找到某某某不用的数据库这是因为maxwell给予binlog级别,且需要采集mysql实例创建maxwell数据库,所以,需要有全库的 *.* 赋权其次是及时全库表可读,也会需要 one of super replication这里要注意,super肯定是不能给的。可以赋 replication权限然...原创 2020-05-29 16:02:32 · 652 阅读 · 0 评论 -
【kafka】企业级kafka实操
kafka实际操作管理1.查看topickafka-topics --list --zookeeper pro-app-175:21812.kafka帮助kafka-topics--help3.demo创建topickafka-topics --create --zookeeper pro-app-175:2181 --replication-factor 2 --partitions 6 --topic log_monitor...原创 2020-05-28 17:09:50 · 404 阅读 · 0 评论 -
【sqoop隐藏bug】sqoop从mysql导到hive时tinyint(1)格式自动变成Boolean解决方案
官网原文:27.2.5. MySQL: Import of TINYINT(1) from MySQL behaves strangelyProblem: Sqoop is treating TINYINT(1) columns as booleans, which is for example causing issues with HIVE import. This is because...原创 2020-04-22 19:24:21 · 443 阅读 · 0 评论 -
【解决hue只能导出10万的限制】
1.这里账户查一下。2.修改配置文件find / -name beeswax选择这个带src的。vim 该文件DOWNLOAD_CELL_LIMIT = Config(key='download_cell_limit',# 表格限制的大小,行数 * 列数。加一个0即可,修改后可下载的行数变成100万default=1...原创 2020-04-14 11:31:50 · 2450 阅读 · 0 评论 -
【scalaRDD转df字段受限为22个】
一、背景1、在scala-2.10.x版本种,case class的元素超过22个以后即会编译报错2、有些业务场景下,需要超过22个元素的值二、如何解决Scala提供了解决方案,即使用类实现Product特质三、举例package com.ngaa.scala/** * @author Created by yangjf on 20180712. * ...翻译 2020-04-09 13:47:05 · 697 阅读 · 0 评论 -
【sqoop隐藏密码方法】
1.创建sqoop job 数据增量导入作业但是这种方法把密码暴露在外面,不安全sqoop job --create myjob -- import --connect jdbc:mysql://192.168.56.1:3306/fangsou--username root --password root--table ershoufang -m 1--target-di...原创 2020-04-07 10:05:15 · 335 阅读 · 1 评论 -
实时:maxwell采集某些表binlog发送至kafka由sparkstreaming消费计算简单的实时数据
编码前的思考maxwell监控所有库所有表的binlog,其实是没有什么用的。而且一个比较简单的指标,总归是容易实现的,对数据的sql时序性也来思考一下。前面文章说过,先update和先delete是不一样的,还有,对于是否会丢数据也要思考。首先我们要nohup一下maxwell了,而且,我们要监控如果数据库不在同一个节点,能不能拿到mysql的binl...原创 2020-03-29 22:45:19 · 1058 阅读 · 2 评论 -
spark开发mysql伪实时数据接入与写入
一、写在前头。早先考虑到并且调研的架构师flume或者canel等读取mysql的binlog,但是需要mysql开启row模式存binlog,但是目前mysql库是已经积攒了很多业务数据,举个例子就是批量修改一万条,仅记录一条update语句,如果改成行,对服务器的磁盘空间要求很大。但是不开启行,就会造成,解析binlog的insert还好,我可以解析后放入kafka中,但是如果涉及到u...原创 2020-03-29 22:44:15 · 458 阅读 · 1 评论 -
spark任务调优
一。首先我们来看一下本来的任务时间。二。调优azkaban的job并行任务数优化了12s,如何优化可以参看上一篇文章,本篇着重说一下spark的任务数# default 10 but we need fasterflow.num.job.threads=20三。增加spark内存发现之前机器应该是内存分配不够,分配的内存全部占满了。赶紧增加内存,...原创 2020-03-29 22:42:00 · 422 阅读 · 2 评论 -
【温故而知新】hadoop常见面试题
1.hdfs写数据流程1.客户端向namenode请求上传文件,namenode检测该文件是否已存在,父目录是否存在,然后返回是否可以上传。2.客户端请求上传第一个block,namenode返回三个节点(dn1,dn2,dn3)。3.客户端向dn1请求上传数据,dn1收到请求后会调用dn2,dn2调用dn3,建立传输通道,dn1、dn2、dn3逐级应答。4.客户端开始往dn1上传第一个...原创 2020-03-29 22:40:39 · 262 阅读 · 0 评论 -
【温故而知新】Kafka实现高吞吐的原理
顺序读写kafka的消息是不断追加到文件中的,这个特性使kafka可以充分利用磁盘的顺序读写性能顺序读写不需要硬盘磁头的寻道时间,只需很少的扇区旋转时间,所以速度远快于随机读写生产者负责写入数据,Kafka会将消息持久化到磁盘,保证不会丢失数据,Kafka采用了俩个技术提高写入的速度。1.顺序写入:在大学的计算机组成(划重点)里我们学过,硬盘是机械结构,需要指针寻址找到存储数据的位...原创 2020-03-26 14:36:59 · 459 阅读 · 0 评论 -
来解决一个很棘手的问题,sparkstream我用的spark版本较新,df落地到mysql最近爆出了问题 com.mysql.jdbc.Driver does not allow create
来看下官网的demo,这里没有任何问题,因为.format("jdbc")是隐式,我们无需关注driver的适用性,但是,程序后台任然会报错,当我们写明用数据库类型之后,也会出现说,无法create table as select,这个mysql是不允许的。但是,以前我们的spark项目是可以的,就因为我使用了,新版本的spark吗?我知道csdn的活跃度很低,问了也是白问,stacko...原创 2020-01-20 17:16:50 · 768 阅读 · 3 评论 -
_bz2 缺少
报错信息 from _bz2 import BZ2Compressor, BZ2DecompressorModuleNotFoundError: No module named '_bz2'解决办法1、安装yum install bzip2-devel2、找到_bz2.cpython-37m-x86_64-linux-gnu.so文件如果在机器上没有的话,...原创 2020-01-03 18:52:55 · 3340 阅读 · 1 评论 -
ModuleNotFoundError: No module named 'PIL'
错误:line 3, in <module>from PIL import ImageModuleNotFoundError: No module named 'PIL'解决方法:运行命令:pip install pillow如果运行该命令 显示Requirement already satisfied: Pillow in c:\program fil...原创 2019-12-04 10:02:28 · 2162 阅读 · 0 评论 -
wxpy itchat 扫码登录微信报错 KeyError: 'pass_ticket' 后台报错码1203 为了你的账号安全,此微信号不能登陆网页微信
使用itchat、wxpy模块对接微信登陆,在扫描程序弹出二维码后,使用手机微信扫描登陆之后报KeyError: 'pass_ticket'。原因就是微信禁止该账号登陆微信网页版,如下图:首先搞懂原因pyhton的itchat、wxpy都可以结合机器学习自动化聊天的,可惜的是,微信从19年7月份已经逐渐关闭微信网页版了,同时将于20年1月1日彻底关闭网页版(...原创 2019-12-04 09:47:49 · 14792 阅读 · 3 评论 -
ModuleNotFoundError: No module named 'windows'
这是pymouse的锅解决办法是找到pymouse的安装路径,如果不知道在哪里可以用pip安装一下,如果已经安装了会自动提示安装路径,通常都是在python或者ide的Lib\site-packages里,比如我的在F:\Anacondea\Lib\site-packages。进入pymouse的安装路径打开__init__.py文件;把92行的windows改为pymouse.windo...原创 2019-12-02 17:44:55 · 2316 阅读 · 0 评论 -
Python开发数据清洗
这篇任然是准备工作,准备什么呢?准备python脚本了。 移除点击此处添加图片说明文字在这里,我们要做的事情是,理清思路,想好,要怎么设计,之前已经整好了本机测试的测试job,其实那也不是测试job,只是指向本地mysql的job,后期整合要改一下库名。接下来呢,我们需要整一个测试python来跑这个同步job,如果没问题的话,我们试着写两个run方法,然后没问题就原创 2017-06-16 13:36:28 · 3626 阅读 · 1 评论 -
nohup后台运行Python调度脚本(最终发布)
遇到的一些坑要说一下 移除点击此处添加图片说明文字遇到的坑来说一下。首先解决了问题,加上手头上新的工作接到手要做,再加上,新的老大来了,开了一上午的会。首先介绍nohup的作用,例子:nohup abc.sh > nohup.log 2>&1 & 脚本位置,然后重定向的日志文件,如果不声明就会去所有的日志文件里追加日志。然后2>&1也要注意,最后请一原创 2017-06-16 13:39:46 · 5557 阅读 · 1 评论 -
Hadoop搭建并执行MapReduce
来点干货吧。后面可能工作比较多了,技术选型和架构工作要多一点了。 移除点击此处添加图片说明文字今天周六,很快,公司的BI要自己部门做了,新架构师希望我们原来的框架有较大改动,后期我需要帮助他很多工作,他的宗旨就是,能偷懒的就不要人为做,一切都尽量实现可配置化,目标是90%,是的,你没听错。开发也要实现配置,而且后期要做推荐系统和用户画像。我们快速记录一片原创 2017-06-17 14:56:25 · 630 阅读 · 0 评论 -
(大数据整合)Python、Kettle完整开发
对业务新增用户收集入库的行为,需要开发。首先第一个,小问题。 移除点击此处添加图片说明文字 移除点击此处添加图片说明文字 移除点击此处添加图片说明文字如所见,报错原因是多了一个;分号,导致了我们把方式换来换去,到后来我才看到,原来不能加引号啊,但是我把时间变量替换成时间常量却可以编译通过,这是个坑,陨石巨坑。第二个问题,当我们跑任务时原创 2017-06-20 12:54:51 · 11128 阅读 · 5 评论 -
MapReduce工作原理
mapreduce准备要来写MapReduce程序。 移除点击此处添加图片说明文字那说道大数据核心处理框架hadoop,那可能MR是必须要去突破的,早在去年有幸通过书籍、网络学习了一下mr的基本理论和做了一个wordCount的demo,可是这样距离企业应用、大数据平台使用还相差甚远。这周我们接到任务,掌握了一套PHP+Java+MongoDB+Mysq原创 2017-06-24 14:28:34 · 790 阅读 · 0 评论 -
Python学习之搭建开发HelloWorld
移除python一般情况下,Linux都会预装 Python了,但是这个预装的python版本一般都非常低,很多 Python的新特性都没有,必须重新安装新一点的版本 。系统默认在/usr/bin/下安装了python2.6.6 版本,在任意目录下输入python 查看当前版本信息。 移除点击此处添加图片说明文字官网下载地址:http://www.python.org/原创 2017-07-04 14:12:48 · 340 阅读 · 0 评论 -
Unable to find a single main class from the following candidates
spring boot 打包之后出现的 Unable to find a single main class from the following candidates原因是因为你可能写了两个main函数,你得去掉一个,注释一下。这样就通过了,可以打jar包了原创 2017-06-02 17:16:34 · 22197 阅读 · 2 评论 -
idea集成svn
idea集成svn今天任务比较重,要研究很多东西,先来看看idea如何集成svn,做版本控制比较重要的一件事情,团队开发,得有git或者svn控制版本,之前一次发布,然后没有控制版本,出了问题,结果代码都被我改了,完蛋。。。以前绝对不会犯这个错的。那现在,赶紧补救。1.ctrl+alt+s 移除点击此处添加图片说明文字2.先配原创 2017-06-13 18:47:55 · 2447 阅读 · 0 评论 -
Python开发Kettle做大数据ETL(前期准备)
Python开发Kettle做大数据ETL,这回事要上线的了。前期准备kettle任务,本地阶段。老规矩,交代一下业务场景,因为所有的框架和技术组件都一定要基于需求,解决实际问题,否则那就是闭门造车,没有丝毫意义。应用场景介绍。这回,我们记录下来了,从整体架构上来说,我们出现了一种同步情况,当前台页面访问页面时,出现了数据集合为空: 移除点击此原创 2017-06-13 19:10:36 · 21420 阅读 · 0 评论 -
MapReduce做词频率统计
WordCount堪称大数据界的HelloWorld 移除点击此处添加图片说明文字今天来学习搭建hadoop开发环境。并且制作一个本地测试版本的WordCount,稍后我们将会来开发实际项目,在此之前,我们需要了解mapreduce所能做的事情。先介绍一下业务需求假如我们有这样一个文件:hadoop hello worldhello hadoophbase原创 2017-06-27 11:40:41 · 1496 阅读 · 0 评论 -
(大数据)MapReduce开发,一个没有隐私的世界!
安全数据重新解析MR开发,接到MR开发任务。也会做一些互 移除点击此处添加图片说明文字拿到新需求,小路乱撞。首先拿到数据示例文档: 移除点击此处添加图片说明文字然后从svn上检出代码,工程如下: 移除点击此处添加图片说明文字需求,我们要将头文件添加到每个ac列表中。 移除点击此处添加图片说明文字 移除点击此处添加图片说明文字原创 2017-06-27 11:45:57 · 1268 阅读 · 0 评论 -
Springboot数据库连接池报错SocketTimeoutException:
Springboot数据库连接池报错SocketTimeoutException:java.net.SocketException: Broken pipe 移除点击此处添加图片说明文字发现服务一般过一段时间会报错。 移除点击此处添加图片说明文字注意这个报错: 移除点击此处添加图片说明文字可以看到Read timed out 这个异常通常在L原创 2017-07-07 17:39:03 · 12032 阅读 · 0 评论 -
Python开发爬虫环境搭建
移除点击此处添加图片说明文字收到命令,python开发爬虫脚本,那么我们准备一下。https://www.python.org/download/releases/2.6.6/ 移除点击此处添加图片说明文字http://www.cnblogs.com/Realh/archive/2010/10/04/1841907.html按照这篇文档安装: 移除点击此处添加图片原创 2017-07-17 11:46:06 · 454 阅读 · 0 评论 -
mongodb搭建与使用
mongodb搭建与使用市场项目mongodb数据库搭建,因为前端业务系统使用的是mongodb数据库哦,基本使用了解即可 移除点击此处添加图片说明文字Mongo DB ,是目前在IT行业非常流行的一种非关系型数据库(NoSql),其灵活的数据存储方式,备受当前IT从业人员的青睐。Mongo DB很好的实现了面向对象的思想(OO思想),在Mongo DB中 每一原创 2017-07-22 00:23:39 · 397 阅读 · 0 评论 -
Nginx理论与使用(附:爬坑搭建)
Nginx理论与使用(附:爬坑搭建)市场项目的web容器使用的nginx,来给php提供web服务,所以需要搭建和研究了。来学习一下nginx,当然也有阿里的tenginx,有部分中文文档都是可以选择的。 移除点击此处添加图片说明文字这里给出领路网站的地址:http://www.nginx.cn/doc/中文的官方文档,给了很多不错的例子,也建议使用到nginx原创 2017-07-22 00:31:07 · 1346 阅读 · 0 评论