九万里大数据-CSDN博客

原创免费OCR图片文字识别小工具，一键提取图片中文字，支持多语言翻译和发票识别

最近用周末和下班后的时间，开发了一款图片文字识别的小程序（扫描识字宝），可以直接拍照或者扫描识别图片上的文字，并支持提取成文档。还加上了图片翻译功能，支持图片上文字提取后翻译成多国语言。也加入了增值税发票的识别功能，未来考虑加入更多其他种类票据的识别功能。我将坚持这个小程序的免费使用，并根据用户的需求不断迭代优化功能，未来会把更多省时省力的小工具加进来，给大家办公带来方便。感兴趣的可以微信扫一扫或者搜一搜（扫描识字宝）试用一下。以下是我使用过程中的小程序截图：...

2022-01-12 15:36:29 1930

原创证件照换底色很简单，不用PS不用跑照相馆，支持渐变色背景，超级实用！

手把手教你如何快速地给证件照换背景，一个手机几分钟时间就能搞定，而且免费哦~~证件照换底色步骤如下：1、微信搜索小程序【免冠照助手】，或者直接扫下面的小程序二维码。2、找到自己需要的规格尺寸，选择“开始拍摄”或者“相册选择”。3、等待小程序抠图完成后，根据自己需要选择蓝底、红底、白底、渐变蓝、渐变灰等底色背景。4、点击“下载照片”，就制作完成了。是不是非常简单，我试用了一下，是完全免费的，非常方便呢，大家可以试试哦。以下是我使用过程中的小程序截图...

2021-08-09 19:49:08 8984

原创 ORC文件存储格式和Hive创建ORC表

首发于： https://www.jwldata.com/archives/134.htmlORC的优点The Optimized Row Columnar (ORC) file format provides a highly efficient way to store Hive data. It was designed to overcome limitations of the other Hive file formats. Using ORC files improves performa

2021-08-03 08:40:24 3340

原创真正免费的证件照小程序，在线一键生成标准免冠证件照，证件照底色更换，证件照尺寸修改

我们经常在一些职业资格考试、学历考试、求职网申时需要上传免冠证件照，但往往不同的考试需要的背景颜色、规格尺寸等都不一样，而线下跑到照相馆重新拍照或者修图，又费钱又费精力。今天给大家推荐一款微信小程序“免冠照助手”，能在线一键生成标准免冠证件照，支持多种规格尺寸证件照制作，还能自定义像素尺寸，支持给证件照换底色，证件照尺寸修改等。并且，试用了一下，是真正免费的，只需要用微信扫一扫就能使用了，非常方便，大家可以试试。以下是我使用过程中的小程序截图...

2021-07-28 16:03:21 11219 1

原创百度AI开放平台人体分析_人像分割的Python示例代码

人像分割有些API需要用到opencv处理返回结果。https://pypi.org/project/opencv-pythonpip install requestspip install numpypip install opencv-pythoncentos7上在用pip安装opencv-python后在进入python交互终端中导入cv2时有如下报错from .cv2 import * Impor

2021-06-07 17:08:19 2175 1

原创 CDH上HDFS配置HA后ZooKeeper无法访问hadoop-ha

当HDFS配置了NameNode HA后，通过zookeeper-client访问ZooKeeper的/hadoop-ha/nameservice1/ActiveStandbyElectorLock会报错。报错信息：[root@ctkf01 ~]# zookeeper-client[zk: localhost:2181(CONNECTED) 3] ls /hadoop-ha/nameservice1/Act.

2021-06-07 17:00:01 540 1

原创百度AI鉴权认证_获取token的Python示例代码

百度AIP开放平台使用OAuth2.0授权调用开放API，调用API时必须在URL中带上access_token参数，获取Access Token的流程如下：# encoding:utf-8 import requests '''百度AI鉴权认证机制https://ai.baidu.com/ai-doc/REFERENCE/Ck3dwjhhu''' request_url = "https://a

2021-05-27 08:49:58 1192 1

原创 CDH上再安装其他版本的Spark客户端

假设CDH上已经安装了Spark1.6.0和Spark2.4.0，用spark-shell和spark2-shell可以分别调用两个版本的Spark。现在需要安装第三个版本的Spark客户端，这里讲述这种场景下再安装一个1.6.3版本的Spark客户端。场景和目标CDH上已经安装.

2021-05-26 10:40:51 603 1

原创 HDFS SecondaryNameNode的原理和作用

NameNode与fsimage、edits文件NameNode（简称NN）负责管理和保存HDFS中所有的元数据，包括但不限于文件/目录结构、文件权限、块ID/大小/数量、副本策略等等。当NameNode在运行时，元数据都是保存在内存中，以保证响应时间。元数据同时也会持久化到磁盘，dfs.namenode.name.dir参数指定了元数据的磁盘保存路径。NameNode内部有两类文件用于持久化元数据：fsimag

2021-05-24 08:49:48 1998 3

原创 Zeppelin集成Hive的jdbc连接

zeppelin集成hive，是通过继承通用jdbc解释器来实现。创建Interpreter选择Interpreter选择Create，Interpreter group选择jdbc，Interpreter Name自己随便起个名。配置Properties注意，将jdbc:hive2://X.X.X.X:10000/default的jdbc连接串中的X.X.X.X替换成自己集群hiveserver2的.

2021-05-20 10:06:44 485 1

原创 centos下安装virtualenv和创建python虚拟环境

安装virtualenvsudo pip3 install virtualenv virtualenvwrapper在当前用户的.bashrc中加入以下这一段vi ~/.bashrc 追加以下环境变量配置 # virtualenv for python3if [ -f /usr/local/Python-3.9.5/bin/virtualenvwrapper.sh ]; then expor

2021-05-18 17:51:02 257 1

原创 centos下python pip3配置阿里源

用pip官方源，下载速度很慢，可以替换成国内源，会快很多。更换阿里pip源mkdir ~/.piptouch ~/.pip/pip.confvi ~/.pip/pip.conf 修改文件内容为 [global]index-url=https://mirrors.aliyun.com/pypi/simple[install]trusted-host=mirrors.aliyun.com尝.

2021-05-18 17:47:50 755 1

原创 centos下安装python3

安装依赖包一次性解决python3版本中的依赖(No module)问题yum install bzip2-devel db4-devel gdbm-devel libpcap-devel ncurses-devel openssl-devel readline-devel sqlite-devel tk-devel xz-devel zlib-devel编译安装下载安装包并解压wget https://www.python.org/ftp/python/3.9.5/Python-3.9.5.t

2021-05-18 17:42:25 240 1

原创 DBeaver通过jdbc连接ClickHouse

首发于： https://www.jwldata.com/archives/97.htmlDBeaver是一款开源的数据库连接工具，通过配置可以很方便的通过jdbc方式连接访问ClickHouse数据库。DBeaver下载DBeaver官网DBeaver Windows 64 bit (installer)下载链接其他操作系统可以上官网找对应的下载链接。创建新连接DBeaver左上角点击新建连接。搜索clickhouse。填写自己的主机IP，用户名，密码等信息。欢迎关注我的

2021-05-11 09:30:41 1327 1

原创搞懂HDFS体系架构这一篇就够了

Hadoop Distributed File System (HDFS)是一种分布式文件系统，具有高容错性，可运行在廉价的硬件上，具有高吞吐量，特别适合存放大规模数据集。HDFS实际架构非常复杂，今天通过一篇文章来浓缩最关键的几个点，结合图和源码等理解HDFS体系架构。系统设计目标硬件故障具有硬件故障检测能力，可自动快速恢复。流式数据访问高数据访问吞吐量，而非低延时。大数据集需支持大数据集，一

2021-05-10 17:54:05 2664 1

原创 ClickHouse更换默认端口和绑定端口到0.0.0.0

ClickHouse安装后，默认client连接端口是9000，这个端口跟CDH的cloudera manager agent的默认端口相同。且ClickHouse默认9000端口是绑定在127.0.0.1上的，无法从其他机器连接ClickHouse。修改config.xml文件权限chmod u+w /etc/clickhouse-server/config.xml修改端口和绑定地址vi /etc

2021-05-10 10:40:55 11087 3

原创单节点ClickHouse的安装

单节点的ClickHouse安装非常简单方便，下面介绍在ubuntu和centos上安装单节点ClickHouse。系统要求查询CPU是否支持SSE 4.2指令集，一般都是支持的。grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported"安装ClickHouseDEB包安装方式对于Debian和Ubuntu等系统，使用DEB包安装。sudo apt-g.

2021-05-10 10:25:51 394 1

原创初识ClickHouse

ClickHouse最近几年很火，几家互联网大厂都开始用上了ClickHouse，培训机构也是宣传各种概念，那么ClickHouse到底是什么，跟传统的数据库又有什么区别，下面我们介绍下ClickHouse。什么是ClickHouse简单一句话，ClickHouse是一种列式存储数据库管理系统，应用于OLAP场景（online analytical processing of queries）。Hive ORC, Hive Parquet, Apache HBase, Vertica, Sybas.

2021-03-03 16:53:41 723 1

data2tech的博客

原创免费OCR图片文字识别小工具，一键提取图片中文字，支持多语言翻译和发票识别

原创证件照换底色很简单，不用PS不用跑照相馆，支持渐变色背景，超级实用！

原创 ORC文件存储格式和Hive创建ORC表

原创真正免费的证件照小程序，在线一键生成标准免冠证件照，证件照底色更换，证件照尺寸修改

原创百度AI开放平台人体分析_人像分割的Python示例代码

原创 CDH上HDFS配置HA后ZooKeeper无法访问hadoop-ha

原创百度AI鉴权认证_获取token的Python示例代码

原创 CDH上再安装其他版本的Spark客户端

原创 HDFS SecondaryNameNode的原理和作用

原创 Zeppelin集成Hive的jdbc连接

原创 centos下安装virtualenv和创建python虚拟环境

原创 centos下python pip3配置阿里源

原创 centos下安装python3

原创 DBeaver通过jdbc连接ClickHouse

原创搞懂HDFS体系架构这一篇就够了

原创 ClickHouse更换默认端口和绑定端口到0.0.0.0

原创单节点ClickHouse的安装

原创初识ClickHouse

原创 hive的beeline使用

原创 Centos7.6配置IP重启网卡报错Failed to start LSB: Bring up/down networking

原创 HUE的security browser显示There are currently no roles defined

原创产品原型设计：使用axure动态面板实现窗口切换

原创产品原型设计：使用axure实现菜单下拉效果

原创 Hive3新特性（二）

原创 Hive3新特性（一）

原创 Hive表的导出与导入

原创 Kafka优先副本选举

原创增加(或减少)Kafka topic的副本数

原创修复HUE任意LDAP用户登录为超级管理员的bug

原创 Kafka的分区重分配

空空如也

空空如也