自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 免费OCR图片文字识别小工具,一键提取图片中文字,支持多语言翻译和发票识别

最近用周末和下班后的时间,开发了一款图片文字识别的小程序( 扫描识字宝 ),可以直接拍照或者扫描识别图片上的文字,并支持提取成文档。还加上了图片翻译功能,支持图片上文字提取后翻译成多国语言。也加入了增值税发票的识别功能,未来考虑加入更多其他种类票据的识别功能。我将坚持这个小程序的免费使用,并根据用户的需求不断迭代优化功能,未来会把更多省时省力的小工具加进来,给大家办公带来方便。感兴趣的可以微信扫一扫或者搜一搜(扫描识字宝)试用一下。以下是我使用过程中的小程序截图:...

2022-01-12 15:36:29 293

原创 证件照换底色很简单,不用PS不用跑照相馆,支持渐变色背景,超级实用!

手把手教你如何快速地给证件照换背景,一个手机几分钟时间就能搞定,而且免费哦~~证件照换底色步骤如下:1、微信搜索小程序【免冠照助手】,或者直接扫下面的小程序二维码。2、找到自己需要的规格尺寸,选择“开始拍摄”或者“相册选择”。3、等待小程序抠图完成后,根据自己需要选择蓝底、红底、白底、渐变蓝、渐变灰等底色背景。4、点击“下载照片”,就制作完成了。是不是非常简单,我试用了一下,是完全免费的,非常方便呢,大家可以试试哦。以下是我使用过程中的小程序截图...

2021-08-09 19:49:08 4498

原创 ORC文件存储格式和Hive创建ORC表

首发于: https://www.jwldata.com/archives/134.htmlORC的优点The Optimized Row Columnar (ORC) file format provides a highly efficient way to store Hive data. It was designed to overcome limitations of the other Hive file formats. Using ORC files improves performa

2021-08-03 08:40:24 868

原创 真正免费的证件照小程序,在线一键生成标准免冠证件照,证件照底色更换,证件照尺寸修改

我们经常在一些职业资格考试、学历考试、求职网申时需要上传免冠证件照,但往往不同的考试需要的背景颜色、规格尺寸等都不一样,而线下跑到照相馆重新拍照或者修图,又费钱又费精力。今天给大家推荐一款微信小程序“免冠照助手”,能在线一键生成标准免冠证件照,支持多种规格尺寸证件照制作,还能自定义像素尺寸,支持给证件照换底色,证件照尺寸修改等。并且,试用了一下,是真正免费的,只需要用微信扫一扫就能使用了,非常方便,大家可以试试。以下是我使用过程中的小程序截图...

2021-07-28 16:03:21 4929 1

原创 百度AI开放平台人体分析_人像分割的Python示例代码

首发于:https://www.jwldata.com/archives/48.html人像分割有些API需要用到opencv处理返回结果。https://pypi.org/project/opencv-pythonpip install requestspip install numpypip install opencv-pythoncentos7上在用pip安装opencv-python后在进入python交互终端中导入cv2时有如下报错from .cv2 import * Impor

2021-06-07 17:08:19 1477

原创 CDH上HDFS配置HA后ZooKeeper无法访问hadoop-ha

当HDFS配置了NameNode HA后,通过zookeeper-client访问ZooKeeper的/hadoop-ha/nameservice1/ActiveStandbyElectorLock会报错。首发于: https://www.jwldata.com/archives/16.html报错信息:[root@ctkf01 ~]# zookeeper-client[zk: localhost:2181(CONNECTED) 3] ls /hadoop-ha/nameservice1/Act.

2021-06-07 17:00:01 80

原创 百度AI鉴权认证_获取token的Python示例代码

百度AIP开放平台使用OAuth2.0授权调用开放API,调用API时必须在URL中带上access_token参数,获取Access Token的流程如下:首发于: https://www.jwldata.com/archives/49.html# encoding:utf-8 import requests '''百度AI鉴权认证机制https://ai.baidu.com/ai-doc/REFERENCE/Ck3dwjhhu''' request_url = "https://a

2021-05-27 08:49:58 266

原创 CDH上再安装其他版本的Spark客户端

假设CDH上已经安装了Spark1.6.0和Spark2.4.0,用spark-shell和spark2-shell可以分别调用两个版本的Spark。现在需要安装第三个版本的Spark客户端,这里讲述这种场景下再安装一个1.6.3版本的Spark客户端。首发于: https://www.jwldata.com/archives/15.html普通的Spark客户端安装可以参考往期文章:https://www.jwldata.com/archives/116.html场景和目标CDH上已经安装.

2021-05-26 10:40:51 192

原创 HDFS SecondaryNameNode的原理和作用

首发于:https://www.jwldata.com/archives/14.htmlNameNode与fsimage、edits文件NameNode(简称NN)负责管理和保存HDFS中所有的元数据,包括但不限于文件/目录结构、文件权限、块ID/大小/数量、副本策略等等。当NameNode在运行时,元数据都是保存在内存中,以保证响应时间。元数据同时也会持久化到磁盘,dfs.namenode.name.dir参数指定了元数据的磁盘保存路径。NameNode内部有两类文件用于持久化元数据:fsimag

2021-05-24 08:49:48 448 3

原创 Zeppelin集成Hive的jdbc连接

zeppelin集成hive,是通过继承通用jdbc解释器来实现。首发于:https://www.jwldata.com/archives/98.html创建Interpreter选择Interpreter选择Create,Interpreter group选择jdbc,Interpreter Name自己随便起个名。配置Properties注意,将jdbc:hive2://X.X.X.X:10000/default的jdbc连接串中的X.X.X.X替换成自己集群hiveserver2的.

2021-05-20 10:06:44 114

原创 centos下安装virtualenv和创建python虚拟环境

首发于:https://www.jwldata.com/archives/124.html安装virtualenvsudo pip3 install virtualenv virtualenvwrapper在当前用户的.bashrc中加入以下这一段vi ~/.bashrc 追加以下环境变量配置 # virtualenv for python3if [ -f /usr/local/Python-3.9.5/bin/virtualenvwrapper.sh ]; then expor

2021-05-18 17:51:02 36

原创 centos下python pip3配置阿里源

用pip官方源,下载速度很慢,可以替换成国内源,会快很多。首发于: https://www.jwldata.com/archives/125.html更换阿里pip源mkdir ~/.piptouch ~/.pip/pip.confvi ~/.pip/pip.conf 修改文件内容为 [global]index-url=https://mirrors.aliyun.com/pypi/simple[install]trusted-host=mirrors.aliyun.com尝.

2021-05-18 17:47:50 155

原创 centos下安装python3

安装依赖包一次性解决python3版本中的依赖(No module)问题yum install bzip2-devel db4-devel gdbm-devel libpcap-devel ncurses-devel openssl-devel readline-devel sqlite-devel tk-devel xz-devel zlib-devel编译安装下载安装包并解压wget https://www.python.org/ftp/python/3.9.5/Python-3.9.5.t

2021-05-18 17:42:25 40

原创 DBeaver通过jdbc连接ClickHouse

首发于: https://www.jwldata.com/archives/97.htmlDBeaver是一款开源的数据库连接工具,通过配置可以很方便的通过jdbc方式连接访问ClickHouse数据库。DBeaver下载DBeaver官网DBeaver Windows 64 bit (installer)下载链接其他操作系统可以上官网找对应的下载链接。创建新连接DBeaver左上角点击新建连接。搜索clickhouse。填写自己的主机IP,用户名,密码等信息。欢迎关注我的

2021-05-11 09:30:41 526

原创 搞懂HDFS体系架构这一篇就够了

首发于: https://www.jwldata.com/archives/122.htmlHadoop Distributed File System (HDFS)是一种分布式文件系统,具有高容错性,可运行在廉价的硬件上,具有高吞吐量,特别适合存放大规模数据集。HDFS实际架构非常复杂,今天通过一篇文章来浓缩最关键的几个点,结合图和源码等理解HDFS体系架构。系统设计目标硬件故障具有硬件故障检测能力,可自动快速恢复。流式数据访问高数据访问吞吐量,而非低延时。大数据集需支持大数据集,一

2021-05-10 17:54:05 93

原创 ClickHouse更换默认端口和绑定端口到0.0.0.0

首发于: https://www.jwldata.com/archives/90.htmlClickHouse安装后,默认client连接端口是9000,这个端口跟CDH的cloudera manager agent的默认端口相同。且ClickHouse默认9000端口是绑定在127.0.0.1上的,无法从其他机器连接ClickHouse。修改config.xml文件权限chmod u+w /etc/clickhouse-server/config.xml修改端口和绑定地址vi /etc

2021-05-10 10:40:55 3675 1

原创 单节点ClickHouse的安装

单节点的ClickHouse安装非常简单方便,下面介绍在ubuntu和centos上安装单节点ClickHouse。系统要求查询CPU是否支持SSE 4.2指令集,一般都是支持的。grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported"安装ClickHouseDEB包安装方式对于Debian和Ubuntu等系统,使用DEB包安装。sudo apt-g.

2021-05-10 10:25:51 66

原创 初识ClickHouse

ClickHouse最近几年很火,几家互联网大厂都开始用上了ClickHouse,培训机构也是宣传各种概念,那么ClickHouse到底是什么,跟传统的数据库又有什么区别,下面我们介绍下ClickHouse。什么是ClickHouse简单一句话,ClickHouse是一种列式存储数据库管理系统,应用于OLAP场景(online analytical processing of queries)。Hive ORC, Hive Parquet, Apache HBase, Vertica, Sybas.

2021-03-03 16:53:41 115 1

原创 hive的beeline使用

Hive CLI是一种重客户端,在新版本中已移除,推荐使用Hive beeline客户端,可以更好地实现安全控制,下面讲讲beeline的使用。在hive1.1.0中使用Hive CLI会提示WARNING: Hive CLI is deprecated and migration to Beeline is recommended.无kerberos的hivebeeline!connect jdbc:hive2://centos:10000 username password对于没有开启.

2021-03-02 11:17:49 896

原创 Centos7.6配置IP重启网卡报错Failed to start LSB: Bring up/down networking

欢迎关注微信公众号九万里大数据。Sep 24 13:54:48 localhost.localdomainNetworkManager[4451]: <info>[1600926888.0948] audit: op="connection-activate" uuid="5fb06bd0-0bb0-7ffb-45f1-d6edd65f3e03"name="eth0" result="fail" reason="No suitable devicefound for this con..

2020-09-24 14:58:22 497

原创 HUE的security browser显示There are currently no roles defined

欢迎关注微信公众号九万里大数据。如图,Roles页面显示There are currently no roles defined但是在Browser选项页是有roles的从后台HTTP请求来看,list_sentry_privileges_by_authorizable接口是有数据欢迎关注微信公众号九万里大数据。而list_sentry_roles_by_group接口没有数据解决办法是将当前用户拉入sentry的admin组,比如hive组,...

2020-09-23 09:15:38 313

原创 产品原型设计:使用axure动态面板实现窗口切换

网站或者app都有窗口切换的场景,比如登录页,选项页等。比如,以下是淘宝的登录页,有两种窗口状态可以切换,密码登录和短信登录。关注微信公众号九万里大数据,观看视频效果。在原型设计时,可以使用动态面板,实现这种窗口切换效果。动态面板,可以理解为一个窗口容器,把外框相同的窗口都装在这同一个容器里面,并可以实现窗口之间的状态切换。欢迎关注微信公众号九万里大数据。欢迎关注微信公众号九万里大数据。使用动态面板实现窗口切换的具体操作演示关注微信公众号九万里大数据,观...

2020-09-22 14:54:45 972

原创 产品原型设计:使用axure实现菜单下拉效果

欢迎关注微信公众号九万里大数据。在我们使用的网页菜单上,经常遇到以下这种下拉菜单,其特点是把同一类型的功能子项,下设在一个统一的功能父项下面。通过鼠标点击父项,会折叠或显示子项。对于产品经理或者交互设计师而言,往往需要在产品原型设计中体现这种效果,下面通过axure来实现。使用axure画出以下几个模块,箭头使用的是FontAwesome字体。字体速查表可以访问https://fontawesome.com/v4.7.0/cheatsheet/欢迎关注微信公众号九万里大数据。将FontA

2020-09-22 14:44:04 786

原创 Hive3新特性(二)

欢迎关注微信公众号九万里大数据。目录执行引擎LLAP负载管理统一查询接口JDBC ConnectorKafka Connector 执行引擎 欢迎关注微信公众号九万里大数据。在Hive3中,Tez完全取代了MapReduce,这张图显示了Hive3的查询流程。 Hive编译查询语句 Tez执行查询 YARN分配资源 Hive更新HDFS上的数据 Hive返回查询结果给JDBC连接 LLAP负载管理 ...

2020-09-22 14:14:21 928

原创 Hive3新特性(一)

欢迎关注微信公众号九万里大数据。目录Hive ACID v21.创建ACID事务表2.支持合并3.ACID工具SQL兼容性约束和代理键物化视图 Hive ACID v2 Hive3的ACID v2相比Hive2的ACID v1,对很多事务的特性进行了优化升级,使之更接近于关系型数据库。使用ACID语义修改现有Hive表数据,包括insert, update, delete, merge支持数据库四大特性, Atomicity, Consistency,.

2020-09-22 14:07:44 2975

原创 Hive表的导出与导入

对于需要跨集群迁移Hive表的,只需要迁移表结构的,可以采取从原始集群导出Hive表结构,然后在新集群导入Hive表结构,实现Hive元数据的迁移。欢迎关注微信公众号九万里大数据。目录导出所有的hive库导出库的所有hive表导出所有hive表的建表语句处理一下导出的建表语句,比如去掉一些表路径信息等导入hive表导出所有的hive库#!/bin/bash# 1-export_database.shdir="output/database"if [ ! -d

2020-09-22 14:00:21 365

原创 Kafka优先副本选举

欢迎关注微信公众号九万里大数据。之前的文章讲述了Kafka的分区重分配。这里讲述Kafka的优先副本选举方法,该办法可用于机器上副本的负载均衡,避免个别broker机器上leader副本过多导致数据写入压力过大。首先,查看topic的partition分布情况/opt/cloudera/parcels/KAFKA/lib/kafka/bin/kafka-topics.sh --zookeeper zk1:2181 --topic topic_replica_test --describe.

2020-09-22 13:53:01 687

原创 增加(或减少)Kafka topic的副本数

之前的文章讲述了Kafka的分区重分配,该方法同样可以用来增加或减少Kafka topic的副本数。该方法,可灵活地运用于提高topic的高可用性,提高数据的读写等场景。目录从一个副本数,增加到2个副本数。再增加一个副本,达到3个副本数 从一个副本数,增加到2个副本数。 创建reassign.json文件{"version":1,"partitions":[{"topic":"topic_replica_test","partition":0,"replicas":[164.

2020-09-22 13:48:19 2078

原创 修复HUE任意LDAP用户登录为超级管理员的bug

欢迎关注微信公众号九万里大数据。目录背景说明修复方法源码分析结合数据库分析 背景说明 CDH6.0.1自带的HUE版本是4.2 HUE4.2和HUE4.3在使用LdapBackend时有个bug,会导致任意的LDAP用户登录,都是超级管理员。 在HUE4.4版本修复了这个bug。https://issues.cloudera.org/browse/HUE-8675https://review.cloudera.org/r/13556/欢..

2020-09-22 12:24:42 331

原创 Kafka的分区重分配

Kafka的分区重分配,可用于broker机器下线前的数据搬迁,topic的副本数增大或减小等。生成Kafka分区重分配方案首先,查看当前topic的partition分布情况kafka-topics --zookeeper zk1:2181 --topic topic_replica_test --describe假定下面我们想将该topic的partition从broker id为164,165的brokers上移走。创建topic-reassign.json文件,内容为.

2020-09-21 21:48:29 961

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除