- 博客(1012)
- 资源 (95)
- 收藏
- 关注
原创 hadoop组件---spark----全面了解spark以及与hadoop的区别
Spark是什么Spark (全称 Apache Spark™) 是一个专门处理大数据量分析任务的通用数据分析引擎。spark官网Spark核心代码是用scala语言开发的,不过支持使用多种语言进行开发调用比如scala,java,python。spark githubSpark文档2.4.4Spark目前有比较完整的数据处理生态组件,可以部署在多种系统环境中,同时支持处理多种数据源。...
2020-01-16 16:47:12 5534
原创 hadoop组件---面向列的开源数据库(十)--使用phoenix自带工具执行sql脚本以及批量导入数据到hbase中
我们在之前的文章中,记录了 在phoenix命令行工具中运行命令,使用java连接phoenix,使用图形界面化客户端连接phoenix。hadoop组件—面向列的开源数据库(七)–phoenix查询hbase–映射和常用命令hadoop组件—面向列的开源数据库(八)–java使用phoenix查询hbasehadoop组件—面向列的开源数据库(九)–使用phoenix图形界面客户端查询hb...
2020-01-09 15:27:27 759
原创 hadoop组件---面向列的开源数据库(九)--使用phoenix图形界面客户端查询hbase
我们在之前的文章中已经学习了 使用phoenix的shell命令行 和 使用java使用phoenix进行操作。如果我们没有权限进入到安装有phoenix命令行的服务器,也不想写java项目进行操作,那我们可以直接使用phoenix的客户端图形界面化操作工具。本篇文章记录 Squirrel GUI连接phoenix查询hbase。hadoop组件—面向列的开源数据库(七)–phoenix查询...
2020-01-08 17:20:52 1119
原创 hadoop组件---面向列的开源数据库(八)--java使用phoenix查询hbase
我们在上篇文章中已经学习了 如果使用phoenix的shell命令行工具进行 增删改查,同时明确了 phoenix要查询hbase原生建立的表 需要创建映射表或者 映射视图。hadoop组件—面向列的开源数据库(七)–phoenix查询hbase–映射和常用命令本篇 记录 使用 java使用phoenix进行 增删改查。java 使用Phoenix加载jar包项目中加载jar包方式一 ...
2020-01-08 11:56:48 1409
原创 hadoop组件---面向列的开源数据库(七)--phoenix查询hbase--映射和常用命令
我们在之前得文章中已经 成功安装了 phoenix,本章需要学习使用phoenix进行增删改查等常用操作。hadoop组件—面向列的开源数据库(六)–使用sql访问hbase的组件–phoenix全面了解和安装关于映射和注意事项–看不到原hbase的表和查询不到数据的问题解决需要注意得一点是 :本地安装好 Phoenix 之后,用 phoenix 的 !talblse 命令列出所有表,会发...
2020-01-08 11:41:50 923
原创 hadoop组件---面向列的开源数据库(六)--使用sql访问hbase的组件--phoenix全面了解和安装
phoenix简介我们在之前得文章中已经学习了thrift 以及使用 thrift 对hbase进行访问。hadoop组件—面向列的开源数据库(三)—hbase的接口thrift简介和安装hadoop组件—面向列的开源数据库(五)–java–SpringMVC查询hbase使用过程中 可以感受到 这种访问方式 是 精确到 行列的,操作比较繁琐,如果是进行复杂的运算统计会很麻烦。phoen...
2020-01-02 17:16:06 694
转载 是时候考虑让你的 Spark 跑在K8s 上了
原文链接:https://mp.weixin.qq.com/s/RT7QNQNQ0NRsAmwUMtw6ig编者荐语:Spark社区从2.3版本开始,已经可以很好的支持跑着Kubernetes上了。这对于统一资源池,提高整体资源利用率,降低运维成本(特别是技术栈归一)有着非常大的帮助。这些趋势是一个大数据人不得不重视的信号,所以一起提前了解并考虑起来吧!以下文章来源于容器魔方 ,作者tsjs...
2020-01-02 00:08:07 972
原创 云监控---grafana使用mysql数据源创建dashboard--全面解析
grafana的dashboard简介Grafana是一款采用 go 语言编写的开源应用,主要用于大规模指标数据的可视化展现,是网络架构和应用分析中最流行的时序数据展示工具,目前已经支持绝大部分常用的时序数据库。官网操作文档grafana安装经常被用作基础设施的时间序列数据和应用程序分析的可视化。Grafana 主要特性:灵活丰富的图形化选项;可以混合多种风格;支持多个数据源;...
2019-12-19 18:43:50 8327 3
原创 aws-s3-使用boto3根据路径设置生命周期
使用boto3根据路径设置生命周期–过期删除import boto3import times3 = boto3.resource('s3', region_name='cn-xxxxxx-1')def set_lifecycle_30days_expiration(bucketname,prefix,rule_name): json ={ 'Rule...
2019-12-04 15:29:41 1860
原创 hadoop组件---面向列的开源数据库(九)--python--python使用thrift连接hbase
Python使用thrift操作HBasethrift支持多种语言进行连接使用,但是没找到linux中的cli操作命令行的形式。所以如果服务器有python环境的话,可以使用python进行连接,快速测试。确认hbase和thrift服务已经安装,启动相关hbase和thrift的安装,启动参考注意:我这里使用的CDH套装中的hbase服务,如果单独安装hbase使用的话,请参考文末附录。...
2019-12-02 19:13:11 849
原创 遇到问题--Kubernetes--argo--output does not exist
情况在使用argo进行流程串联时 使用了output进行文件输出。在生产环境的argo中运行,即时需要output的文件在pod中不存在,也能正常运行 进入后续步骤。但是内测环境的argo 同样的情况下会报错。报错如下:path /mendel/need_update_barcode.txt does not exist (or /mendel/need_update_barcode.t...
2019-11-28 16:52:47 1046
原创 aws-s3-使用boto3根据路径和间隔时间进行清理删除启用版本控制的文件
前面我们做过一版清理删除的脚本。但是 发现 针对启用了版本控制的桶是不生效的,不能永久删除,只是在版本控制中加上了一个删除标记的版本。如果要永久删除就需要带version_id指定删除。boto3中提供了ObjectVersion实体使用脚本如下:import boto3import timeimport datetimefrom aws_money.settings import...
2019-11-26 11:04:57 1782
原创 aws-s3-使用boto3根据路径和间隔时间进行清理删除
使用python3.6以上import boto3import timeimport datetime# https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/s3.htmls3 = boto3.resource('s3', region_name='cn-xxxxxxx-1')d...
2019-11-22 18:11:21 1656
原创 aws--s3存储类别--对s3进行存储分层优化
我们在之前的文章中已经尝试获取s3的所有存储的文件大小和 最后修改时间 清洗入库。现在可以 对 s3存储进行 精细化的 优化了。比如 对s3存储进行分层优化。这样可以把我们的成本 明显的降低。s3的存储目前有6层,具体什么样的数据 选择 哪种, 本篇文章进行分析。s3存储 提供的 分层类型Amazon S3 提供一系列适合不同使用案例的存储类。1、S3 标准(适用于频繁访问的数据的通用...
2019-11-19 16:32:38 3599
原创 遇到问题--HttpClient默认重试策略不处理SocketTimeoutException
情况使用httpClient 4.5.3版本的默认重试策略DefaultHttpRequestRetryHandler.httpclient默认会有三次重试,但是 生产环境 运行时 发现 超时报错并没有进行重试。报错信息如下:Caused by: java.net.ConnectException: Connection timed out (Connection timed out)a...
2019-11-12 15:18:44 2342
原创 遇到问题--mac下MySQL8使用mysqlimport出现The used command is not allowed with this MySQL version
情况使用mysqlimport命令把csv文件导入到mysql中,报错如下:zhangxiaofans-MacBook-Pro:aws-money-result joe$ mysqlimport --ignore-lines=1 --fields-terminated-by=, --user=root --password=12345678 -h 127.0.0.1 -P 3306 -...
2019-11-07 11:15:25 1265
转载 400+节点的 Elasticsearch 集群运维
Meltwater每天要处理数百万量级的帖子数据,因此需要一种能处理该量级数据的存储和检索技术。从0.11.X 版本开始我们就已经是Elasticsearch的忠实用户了。在经历了一些波折之后,最终我们认为做出了正确的技术选型。Elasticsearch用于支持我们的主要媒体监控应用,客户通过该应用可以检索和分析媒体数据,比如新闻文章、(公开的)Facebook帖子、Instagram帖子、博...
2019-11-01 19:29:36 412
原创 遇到问题--k8s--异常排查--pod重启在执行任务时自动重启的
情况执行一个长连接访问的方法,执行到一半后 没有日志输出了。初步判断为pod已经被重启了。原因使用命令排查如下:[zzq@localhost zzq]$ kubectl get pods |grep report-apireport-api-6b4cdf5f6d-cn2vg 1/1 Running 0 ...
2019-10-28 16:25:29 9013
原创 hadoop组件---面向列的开源数据库(三)---hbase的接口thrift简介和安装
thrift简介Thrift server是HBase中的一种服务,主要用于对多语言API的支持。基于Apache Thrift(多语言支持的通信框架)开发,目前有两种版本thrift和thrift2。thrift2是当时为了适应新的Java API,提出来的。由于种种原因,thrift2没有完美兼容并替代thrift,所有就留下了两个版本。Thrift 和 Thrift2 的区别接口设计...
2019-10-25 18:06:56 814
原创 Docker积累(一)---docker安装mysql和使用
docker安装mysql很方便快捷,但是容易遇到一些问题 以及 有些细节需要注意 不然容易造成数据丢失。本篇文章记录 docker安装mysql的过程和遇到的问题 以及注意事项。系统环境 centos搜索MySQL镜像$ docker search mysqlINDEX NAME DESCRIPTION ...
2019-10-24 12:08:13 1337
转载 python中的时间戳和格式化之间的转换
把格式化时间转换成时间戳import timedef str_to_timestamp(str_time=None, format='%Y-%m-%d %H:%M:%S'): if str_time: time_tuple = time.strptime(str_time, format) # 把格式化好的时间转换成元祖 result = time...
2019-10-20 14:39:54 826
转载 阿里资深工程师教你如何优化 Java 代码
明代王阳明先生在《传习录》谈为学之道时说:私欲日生,如地上尘,一日不扫,便又有一层。着实用功,便见道无终穷,愈探愈深,必使精白无一毫不彻方可。代码中的"坏味道",如"私欲"如"灰尘",每天都在增加,一日不去清除,便会越累越多。如果用功去清除这些"坏味道",不仅能提高自己的编码水平,也能使代码变得"精白无一毫不彻"。这里,整理了日常工作中的一些"坏味道",及清理方法,供大家参考。让代码性能更...
2019-10-13 16:04:17 632
转载 Kubernetes--k8s---存活探针和就绪探针的最佳实践
我们在上一篇文章中学习了 Kubernetes–k8s—滚动更新–零停机不停服发布服务里面涉及到 使用 存活探针和 就绪探针。但是 这两个探针 具体怎么设置,是不是用同一个 api作为检查点,还是需要分开。以及 就绪探针和 存活探针分别做到说明程度 都需要有一个 判断的度。我找到了一篇 《Kubernetes存活探针和就绪探针的最佳实践》 希望可以给大家参考。原文链接:http://d...
2019-09-24 16:50:43 2760
原创 Kubernetes--k8s---滚动更新--零停机不停服发布服务
滚动更新的定义和目标滚动更新的含义一次只更新一小部分副本,成功后,再更新更多的副本,最终完成所有副本的更新。滚动更新的好处最大好处是零停机,整个更新过程始终有副本在运行,从而保证了业余的连续性。根据 yaml 创建资源, apply 可以重复执行,create 不行kubectl create -f deploy.ymlkubectl apply -f deploy.yml --re...
2019-09-23 19:51:35 9792 2
原创 python--web--让python提供api服务--aiohttp
aiohttp介绍官网上有这样一句话介绍:Async HTTP client/server for asyncio and Python翻译过来就是 基于asyncio和Python实现的异步HTTP客户端/服务器asyncio可以实现单线程并发IO操作。也就是做异步操作。如果仅用在客户端,发挥的威力不大。如果把asyncio用在服务器端,例如Web服务器,由于HTTP连接就是IO操作,因...
2019-09-11 18:38:28 8391 1
原创 遇到问题--pycharm为什么py文件代码提示都没了,被当成text文件
遇到问题[外链图片转存失败(img-Aras1F5N-1567917814482)(http://image.525.life/FimGEM_4YyXWObip-ZkN6ZG1f6-i)]pycharm为什么py文件代码提示都没了原因创建该文件时选错text文件类型,被当成text文件了删除后重新新建成py文件也没用因为 text有一个名字队列,只要加入过的都会被识别成text解决方...
2019-09-08 12:44:59 2937
原创 遇到问题--python--爬虫--使用代理ip第二次获取代理ip失败
情况获取代理ip的代码def ferch_proxy_ips(): try: api = "http://dynamic.goubanjia.com/dynamic/get/12323.html?sep=3" response = urllib.request.urlopen(api, timeout=8) the_page = resp...
2019-08-27 18:49:14 2012
转载 Python--繁体中文与简体中文相互转换
工作中需要将繁体中文转换成简体中文上网找了些资料,发现这个包最方便安装方法不需要什么安装方法,只需要把这两个文件下载下来,保存到与代码同一目录下即可https://raw.githubusercontent.com/skydark/nstools/master/zhtools/langconv.pyhttps://raw.githubusercontent.com/skydark/nst...
2019-08-27 18:31:14 29503
转载 js实现图片在一个div中点击按钮放大缩小效果
图片放大,缩小也是前端中经常遇到得问题,以下就根据这个需求,做如下示范:<!DOCTYPE html><html><head> <title>图片放大</title></head><style type="text/css"> .main_div{ margin: 20px auto; tex...
2019-08-27 18:19:41 11315
原创 js实现图片放大镜效果
效果图代码实现过程html部分<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml" xml:lan...
2019-08-27 18:12:37 1985
原创 js实现点击图片在屏幕中间弹出放大效果
效果图点击图片后关键代码html<div> <img height="100" width="100" src="https://cdn.pixabay.com/photo/2018/08/14/13/23/ocean-3605547_960_720.jpg" class="pic"/> <img height="100"...
2019-08-27 17:35:34 3831 3
原创 js实现打开web页面聚焦到窗口中间
最近在做一个图片浏览器。效果如图:[外链图片转存失败(img-6Zb0HDAW-1566896732228)(http://image.525.life/Fm0us42kRTf2_NZE2ScpJv9YkT-Z)]现在需要一进入到页面 就聚焦到图片的位置,而不需要下滑后才能查看。使用方法如下:html中 <img id="originPic" src="${signedUrl...
2019-08-27 17:06:34 1656
原创 遇到的问题--爬虫--fiddler监听返回304,无法拿到返回数据
现象使用fiddler进行监听时 想要获取的 请求 没有返回数据,状态为304[外链图片转存失败(img-ixg0tqX9-1566888679742)(http://image.525.life/Fs1Th4mH9C5OoKMe7AcC3Y6-ITjb)]原因首先理解一下304的状态,是说 当前客户端中有我们需要的数据的缓存,不再重新获取。如果客户端发送的是一个条件验证(Conditi...
2019-08-27 14:53:44 3585
原创 遇到问题--linux--Bash: mail: command not found(在CentOS,Redhat,Ubuntu和Debian中安装Mail邮件命令)
情况使用命令echo "Message Body" | mail -s "Message Subject" receiver@example.com报错Bash: mail: command not found原因当前系统中缺少mail邮件相关的包。解决方法安装mail让我们使用下面的命令之一安装邮件命令,根据您的操作系统。对于基于RHEL系统,从mailx 的 rpm包和基...
2019-08-06 16:31:33 5396 1
原创 python--爬虫--积累--多图片网站抓取加速方案和调优记录
最近在处理多图片数据网站的抓取案例。对抓取的速度有一定的要求。短时间内需要获取大量的图片。在部署分布式抓取时有很多个因素是需要调优的。1、每次读取数据库mongodb需要处理的记录的条数2、协程的pool大小。同时处理的个数。3、代理ip如何使用4、代理可使用的请求数–部分代理ip有请求数的限制5、代理ip可用时间(60s)还是几分钟6、对方的封锁机制–同一ip密集访问会有被封锁的...
2019-07-16 14:27:54 2844 4
转载 ubuntu16.04安装python3.7
1.安装依赖包sudo apt-get updatesudo apt-get install build-essential python-dev python-setuptools python-pip python-smbussudo apt-get install build-essential libncursesw5-dev libgdbm-dev libc6-devsud...
2019-07-08 16:01:48 8799 2
原创 windows安装python3.7
下载在python的官网下载python对应版本:https://www.python.org/downloads/windows/64位下载Windows x86-64 executable installer 版本32位下载Windows x86 executable installer 版本打开链接如下图,版本会一直更新,选择任意一个适合自己电脑的版本就好python3.7.0传送...
2019-07-08 15:59:34 2459 1
转载 如何在万亿级别规模的数据量上使用Spark
一、前言Spark作为大数据计算引擎,凭借其快速、稳定、简易等特点,快速的占领了大数据计算的领域。本文主要为作者在搭建使用计算平台的过程中,对于Spark的理解,希望能给读者一些学习的思路。文章内容为介绍Spark在DataMagic平台扮演的角色、如何快速掌握Spark以及DataMagic平台是如何使用好Spark的。二、Spark在DataMagic平台中的角色[外链图片转存失败(im...
2019-07-06 23:43:07 1596 1
转载 HBase在滴滴出行的应用场景和最佳实践
来源:极客头条,作者:李扬,滴滴出行资深软件开发工程师。2015年加入滴滴出行基础平台部,主要负责HBase和Phoenix以及相关分布式存储技术。在滴滴之前,曾在新浪担任数据工程师,专注于分布式计算和存储。原文链接:https://blog.csdn.net/imgxr/article/details/80130075本文主要介绍HBase在滴滴内部的一些典型使用场景,如何设计整个业务数据流,...
2019-07-06 23:21:35 1016
原创 爬虫---如何抓取app的思路和方案
背景2015年,谷歌开始对外部App的内部链接和内容进行抓取,目前已经累计抓取了300多亿个。搜索引擎是内容门户之后的互联网第二次重大技术革命。然而伴随着智能手机的普及,应用软件(APP)取代网页,成为主流的技术。由于APP的内容一度无法被搜索引擎抓取到,人们惊呼,移动互联网将带来一场搜索引擎的生存危机。不过,通过和应用软件开发商的合作,谷歌(微博)已经一定程度上化解了这场危机。日前,谷歌已...
2019-07-05 15:05:53 20311 6
ssh框架搭建用到的包完整版.zip
2014-07-03
java通过class读写excel的例子
2014-07-01
整合spring和mongodb用到的包和配置文件
2014-01-21
springMVCHibernateShiroBootStrap框架
2017-11-16
cxselect选择城市
2017-09-13
ueditor1.4.3的jsp版utf-8
2017-07-03
bootstrap-fileinput-master.zip
2017-06-23
SpringMVC+Shiro+MongoDB+BootStrap基础框架
2017-05-16
SpringMVC+Shiro+MongoDB基础框架
2017-05-15
hadoop-eclipse-plugin-1.2.1.jar
2016-09-14
hadoop2.2+hbase0.96+hive0.12安装整合详细高可靠文档及经验总结.pdf
2016-06-12
springMVC+maven+hibernate框架
2015-11-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人