2020年09月_javastart

转载自然语言处理书单

本文链接：https://blog.csdn.net/sjyttkl/article/details/108822017版权目录书单1. Speech and Language Processing (3rd ed. draft)2. Foundations of Statistical Natural Language Processing3.Neural Network Methods in Natural Language Processing (Synthesis...

2020-09-28 12:49:53 252

原创 conda 离线安装包

学校的网，早上很好，下午晚上休想下东西。另外近两年国外网站非常慢，所以没法直接用conda install这个命令下载pytorch这个520M的包，但是我在浏览器下载好了，所以需要记住这个离线下载的方法。很简单只需两步：把pytorch-nightly-1.0.0.dev20190104-py3.6_cuda9.0.176_cudnn7.4.1_0.tar.bz2这个包复制到anaconda3/pkgs目录下 conda install 这个包即可chen@chen-virtual-m...

2020-09-28 10:46:38 4527

转载 OPPO数据中台之基石：基于Flink SQL构建实数据仓库

OPPO 实时数仓的演进思路；基于 Flink SQL 的扩展工作；构建实时数仓的应用案例；未来工作的思考和展望。一.OPPO 实时数仓的演进思路1.1.OPPO 业务与数据规模大家都知道 OPPO 是做智能手机的，但并不知道 OPPO 与互联网以及大数据有什么关系，下图概要介绍了 OPPO 的业务与数据情况：OPPO 作为手机厂商，基于 Android 定制了自己的 ColorOS 系统，当前日活跃用户超过 2 亿。围绕 ColorOS，OPPO 构建了很多互联...

2020-09-24 15:12:40 232

转载在启用了HDFS HA的集群误删了一个NameNode解决实践

在启用了HDFS HA的集群，2个NameNode节点上一般都会部署三个角色：NameNode，JournalNode和Failover Controller。在实际生产中，我们有时会碰到一个情况，你不小心删掉了某个NameNode节点上的所有角色包括NameNode，JournalNode和Failover Controller，或者你不小心通过Cloudera Manager直接从主机管理列表里移除了该NameNode节点，然后你想再把这个节点加回去的时候，发现无论如何HDFS服务都没办法正常使用了。本

2020-09-21 15:13:21 991

转载 tesseract图片文字识别 - 滤波降噪灰度二值化去除文本边框去除验证码干扰线--承兑汇票

import org.apache.xmlgraphics.image.codec.tiff.TIFFEncodeParam;import org.apache.xmlgraphics.image.codec.util.ImageEncoder;import javax.imageio.ImageIO;import java.awt.*;import java.awt.image.BufferedImage;import java.io.File;import java.io.FileOut.

2020-09-18 12:28:49 1344

转载 hive2.0的LLAP特性及DPC-H数据性能测试测试

本文链接：https://blog.csdn.net/zilianxiaozhu/article/details/80320759版权1. hive2.x新功能及 LLap 特性介绍 1. (对于hive的介绍我就不多说了)hive 2.1 发布后增加了许多新功能，官网里面提到了以下几点(翻译):使用Hive LLAP进行交互式查询。 LLAP在Hive 2.0中引入，在Hive 2.1中进行了改进，使其性能比Hive 1提高了25倍强大的SQL ACI...

2020-09-14 13:42:12 619

转载 OpenCV自带dnn的Example研究（6）— text_detection

这个博客系列，简单来说，今天我们就是要研究https://docs.opencv.org/master/examples.html下的6个文件，看看在最新的OpenCV中，它们是如何发挥作用的。在配置使用的过程中，需要注意使用较高版本的VS避免编译器兼容问题；由于DNN程序的运行依赖于训练成功的模型，因此需要预先下载准备；此外如果出现各种报错，需要对症下药。此外，由于需要使用common.hpp文件，所以需要引入dnn目录到include中用到的数据集都放在：链接...

2020-09-13 15:23:51 760

转载 tensorflow的pb文件转化为pbtxt

import tensorflow as tf from tensorflow.python.platform import gfile #函数功能能,将pb模型转换为pbtxt,转换好后存储到当前目录下,模型名字是protobuf.pbtxt def convert_pb_to_pbtxt(filename): with gfile.FastGFile(filename, 'rb') as f: graph_def = tf.Grap...

2020-09-13 14:39:19 2928 2

转载 10分钟上手，OpenCV自然场景文本检测（Python代码+实现）

【新智元导读】众所周知，自然场景下的文本检测是极具挑战性的。本文便使用OpenCV和EAST文本检测器在自然场景下对文本进行了检测，包括图像中的文本检测，以及视频中的文本检测，并对其原理与实现过程做了详尽的描述。在本教程中，您将学习如何使用EAST文本检测器在自然场景下检测文本。本教程的主要目的是教读者利用OpenCV和EAST文本检测器来检测文本。运行环境：EAST文本检测器需要OpenCV3.4.2或更高版本，有需要的读者可以先安装OpenCV。主要内容：教...

2020-09-13 11:33:55 2442

转载 python-opencv提取图片中的表格直线--Apple的学习笔记

一，传统方法1.1二值化后，用canny边缘提取，然后用霍夫变换获得直线为一般方法。比如在图片中车道线提取上的应用。1.2二值化后，用横向和竖向的细长的条去腐蚀膨胀可以得到横线和竖线，拼在一起就是完整的表格框架。比如图片中表格的提取。总结一开始我用传统的第一个方法，python代码实现后发现canny后是轮廓，一条横线和一条垂线有交点，交点处就变成镂空的十字架，导致线不连续。后来了解到膨胀腐蚀即可解决问题，效果更欧豪。如下python实例代码为膨胀腐蚀方法。二，深度学习方法...

2020-09-09 12:48:27 2528

转载 hive整合sentry，impala，hue之后权限管理操作

原文链接：http://www.cnblogs.com/gxc2015/p/9597270.html版权7.Hive授权参考(开启sentry之后,对用户授权用不了,只能针对用户组，grant role testrole to user xxxxxxx; )7.1：角色创建和删除create role star_read;drop role star_read;grant role star_read to group star_read;7.2：角色授权和取消授...

2020-09-08 17:35:29 445

转载走进AI时代的文档识别技术之表格图像识别

本文链接：https://blog.csdn.net/ShuYunBIGDATA/article/details/103007795版权

2020-09-08 13:39:32 460

转载 CDH 配置 Sentry 服务

1. 启用Sentry服务前设置 Hive Warehouse 目录权限要点：启用 HDFS / Sentry同步无需在Hive仓库目录上显式设置权限。启用同步后，所有 Hive 数据库和表在HDFS底层文件系统上都归属 hive : hive 。 Sentry 会把表的权限自动转换为 HDFS 底层文件的 ACL。 Hive的仓库目录 /user/hive/warehouse 或者在 hive-site.xml 中指定的 hive.metastore.warehouse.dir ...

2020-09-08 10:50:50 833

转载票据图片复杂表格框识别(票据单元格切割)

票据图片复杂表格框识别(票据单元格切割)做票据OCR文字提取的时候，由于票据版面不固定，文字印刷错位、粘连等，想要提取目标内容非常困难。如果首先能把票据的表格框形式识别出来，再切割出单元格，OCR再识别单元格里面的内容会容易很多。运用unet实现对文档表格的自动检测所有代码获取：本文相关代码项目获取方式：关注微信公众号 datayx 然后回复表格即可获取。AI项目体验地址 https://loveai.tech获取项目代码后，安装步骤：1、下载、编译 ...

2020-09-06 22:06:52 520

转载基于Opencv和Tesseract的行驶证识别系统设计

张伟超, 肖中俊, 严志国. 基于Opencv和Tesseract的行驶证识别系统设计[J]. 齐鲁工业大学学报, 2020, 34(1): 47-52. DOI:10.16442/j.cnki.qlgydxxb.2020.01.009ZHANG W C, XIAO Z J, YAN Z G. Design of Vehicle License Identification System Based on OpenCV and Tesseract[J]. Journal of Qilu Univer..

2020-09-04 12:39:12 1614 1

原创 filesplit的Python项目详细描述

模块文件方法 include 文件名 fs utf header split对python程序员来说，文件拆分变得很容易！一个python模块，可以将任何大小的文件分成多个块，在不影响性能的前提下，充分利用内存。这个模块根据文件，因此不会将不完整的行写入文件拆分。这个文件拆分编号从1到n，如下所示[文件名]_1.ext，[文件名]_2.ext，…，[文件名]_n.ext系统要求操作系统：windows/linux/macpython版本：python ...

2020-09-04 12:12:48 1407 1

转载基于web端和C++的两种深度学习模型部署方式

深度学习Author：louwillMachine Learning Lab 本文对深度学习两种模型部署方式进行总结和梳理。一种是基于web服务端的模型部署，一种是基... 深度学习 Author：louwill Machine Learning Lab 本文对深度学习两种模型部署方式进行总结和梳理。一种是基于web服务端的模型部署，一种是基于C++软件集成的方式进行部署。基于web服务端的模型部署，主要是通过REST API的形...

2020-09-03 22:29:36 1535

张伟的专栏