半九拾-CSDN博客

OS: linux jdk 若机器已配置java环境，则可以跳过此部分。$ echo $JAVA_HOME/usr/lib/jvm/java-8-openjdk-amd64/jre/bin/java否则：先看是否有java（可能仅仅是没有配置环境变量）若有，则按如下步骤找到jdk的位置（如下所示，本机中，该位置为：/usr/lib/jvm/java-8-openjdk-amd64/jre/bin/java）：$ java -versi...

2022-05-08 13:16:11 780

原创 [NLP]keras模型部署加速（ONNX Speed Keras_Model Inference）

目录使用如下方法，可将Keras_model写成pb文件tf2onnx 将pbfile转成onnx背景：用keras 训练 NER 模型，模型架构为：Roberta_CRF。整个模型保存下来，1.2G 左右。欲部署在cpu环境下，需要对模型进行压缩和加速。没有找到bert的蒸馏后的中文预训练模型。整体方案是：keras_weights -> tf_pb_model(freeze graph) -> tf2onnxps:直接使用keras2onnx，因为tran

2022-04-20 15:02:17 1388

原创 [OCR]基于垂直投影的单行文字图像_字分割

背景：面临一个银行票据识别任务。目标是：将一行金额或日期描述文本作OCR识别。由于数据包含手写体和多版本多字体机打文字，采用单文字拼接方式做数据增强。数据增强思路：1、将单行文字图像切成单字分别存储，得到某个字的多个表达形式集合。2、对于每一条模拟label，在某字的表达形式集合中采样。3、拼接字生成增强数据。涉及到一些问题的解决：1、cv2 读写中文目录报错的问题。2、切分成字的过程要考虑原始图像的明暗变化，实现不同明暗程度下的单...

2022-02-18 14:45:10 2112

原创 flask 多http访问方式，解决ajax跨域

import flaskimport jsonapp = flask.Flask(__name__)@app.route("/predict", methods=["GET","POST"])def predict(): data = {"success": False} if flask.request.method == 'POST': params = json.loads(flask.request.get_data()) #print(pa

2021-05-17 14:17:26 193

原创 ckpt 转 pb 模型

tf1.12checkpoints like :we should know our input and output layers’ name:now the code to make the pb is:import osos.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'import tensorflow as tfsave_dir = 'checkpoints/'save_path = os.path.join(save_dir, 'best_val

2021-05-17 14:11:57 167

原创 [DIP]如何提取文件中的公章，并识别其朝向是否准确

任务描述，我们需要知道，我们盖在文件上的红章是否是端正的。需要解决的问题：1、图章的识别2、图章的定位3、图章的方向判定思路：图章基本上是红色的，我们先根据颜色提取可能的图章区域。当然，假如文档中，还有其他红色的区域，这一步都会提取出来。img = cv2.imdecode(np.fromfile("jingshanshi_muti_stamp.png", dtype=np.uint8), -1)def extract_red(img): ''''使用inRa

2020-09-04 17:38:18 2753 4

原创【DIP】一种去水印的方案

这是一个用来去除水印的小demo。适合于去除水印颜色较浅，保留元素颜色较深的图片。比如白底黑字，但带白色或灰色的图片或者其他彩色图片但有白色或灰色水印该算法对于偏暗的图片去水印的效果不是很好。基于滑动窗口的图片去水印方法传统去水印方式是统计图片上水印的像素值范围，将RGB值属于某一范围内的像素赋值为[0,0,0]或[255,255,255]已达到去水印效果。但对于受光照影响或本身图片较暗的图片，上述去水印方法效果不理想。针对以上特征的图片，采用局部去水印的方式

2020-08-20 17:46:02 453

原创【NLP】LSTM总结记录

前言如果有一天，你发现有大佬会看你写的东西，你感觉一切的一切都变得有意义了。好比一个资质极差的凡人，终于发现自己可以凭借后天的极限奋斗，能有希望入道成仙，因而欢喜无尽。希望未来的那么一天，也有人会跟我说一句：吾道不孤也！----感谢boss上跟我聊过的这位大佬！这篇文章写一些关于LSTM的总结。RNN为了更加好的建模一些序列化信息，比如文本，语音，我们有了RNN（Recurre...

2020-05-08 09:16:37 2060

原创【ML】从HMM到CRF，我学到了什么？

可以略过的前言我必须要先承认，这是一篇入门级别的文章。源自上次电话面试中被问到HMM与CRF的异同，我没有回答好，于是写一篇粗浅的总结性文章，希望能让自己有所进步。若有不足之处，还请大佬们不吝赐教。百拜为谢！以前总结HMM与CRF的区别是什么，只是记住了HMM是判别模型，CRF是生成模型，深一点的，HMM针对于建模，而CRF是针对于建模，至于他们的原理是什么，他们到底在干什么，根本没有弄明...

2020-04-28 14:40:41 718 1

原创【NLP】bilstmCRF模型进行中文命名实体识别的实战

写在前面纵观接触到的NLP任务，我们发现了，绝大部分任务或多或少地依赖NER的能力。之前仓促地总结归纳了一篇关于命名实体识别的介绍性博客，但这只能非常有限的从前辈大神成熟的理论和我不成熟的思考中，得到如萤火之光般，稍纵即逝的短暂性感悟。而这之后，面对同样的问题和任务，依旧一头雾水，没有任何获得感让人内心焦躁，各位大兄弟，不知道你们是否也有同感呢？不管怎样，实践出真知，决定还是自...

2019-11-08 15:51:58 3284 3

原创【NLP】TextRank&NMF文本摘要总结

TextRank&NMF文本摘要总结我们在用TextRank作文本摘要时，提出一种新颖的方法来解决长文本的摘要提取问题。TextRank的思想很简单，其基本思想来源于谷歌的PageRank算法, 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。和 LDA、HMM 等模型不同...

2019-09-26 13:58:15 894

原创【NLP】seq2seq&attention文本摘要实现

Seq2seq文本摘要总结目录前言结构EncoderATTENTIONDecoderTrainingevaluate前言之前尝试用textRank+NMF做长文本摘要，但textRank是基于句子间距离的，其结果是文本中句子的重要性排序，输出的是文本中现成的句子。这对于文章内容的理解是不够的。当某个思想需要用多个句子表达，或者长文本中包含过于复杂...

2019-09-26 13:19:34 5356 12

原创【NLP】命名实体识别（NER）的BiLSTM-CRF模型

目录NER 的各种方法基于字的BiLSTM-CRF模型CRF层详解Emission scoreTransition scoreCRF loss function代码模型效果骚年，来一份“人民日报”吗？骚年，你搞懂了LSTM了没？有“人民日报”懂LSTM，我们就开车出发啦！NER 的各种方法对于NER 的各种方法基本上归于三类方法：...

2019-09-12 16:26:34 5768

原创【ML】由最大似然到EM算法从入门到入门

一切为了梦想。期望在概率论和统计学中，数学期望(mean)（或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和，是最基本的数学特征之一。它反映随机变量平均取值的大小。大数定律规定，随着重复次数接近无穷大，数值的算术平均值几乎肯定地收敛于期望值。(百度百科)期望反应随机变量平均取值的大小,于是离散性随机变量的期望表示为:,这里是离散取值的概率。连续型随机变量的期...

2019-04-10 14:43:50 602

原创【ML】随机森林(Random Forest) 从入门到放弃再到掌握

一切为了学习,一切为了面试,一切为了成长,一切为了梦想。加油希望这个文章不仅是我的笔记,也成为帮助您进一步理解RF的桥梁,大佬万福,请不吝赐教!让我们先看看集成学习基础理论集成学习集成学习的主要思路是先通过一定的规则生成多个学习器，再采用某种集成策略进行组合，最后综合判断输出最终结果。一般而言，通常所说的集成学习中的多个学习器都是同质的"弱学习器"。基于该弱学习器，通过样本集...

2019-04-09 11:05:09 4236

原创【ML】决策树（decesion Tree）从入门到放弃再到掌握

希望写一篇关于决策树的总结,对自己所学做一个梳理.诚盼各位大佬不吝赐教。一切为了学习,一切为了面试,一切为了成长,一切为了梦想。人类做决策的时候，往往基于一些经验或者条件，比如我开始写这篇文章之前，我做了这么一些判断：1、我是否一心想要做工程师？——>是（执行下一步）/否（放弃写博客）2、我是否需要写一篇博客来加深一下关于决策树的印象？——> 是（执行下一步）/否...

2019-04-08 16:39:03 3271

原创【ML】逻辑回归(Logistic Regression-LR)从入门到放弃再到掌握

logistic regression (LR)是一个简单又复杂的模型.让我们一起来回顾和总结.一切为了学习,一切为了面试,一切为了成长,一切为了梦想。LR简单是因为从其根本上来学习,他很容易了解.复杂则在于:LR以其简单,经济,相对实用的原因经常被使用,被用的多,自然就被理解的透彻,而当一个对其理解透彻之人(比如面试官)对一个还不怎么理解的人(比如说我)针对性地提问的时候,他的复杂就...

2019-03-20 14:36:27 7519

原创【ML】支持向量机（SVM）从入门到放弃再到掌握

朋友，你通过各种不同的途经初次接触支持向量机（SVM）的时候，是不是会觉得这个东西耳熟能详，感觉大家都会，却唯独自己很难理解？每一次你的老板或者同仁让你讲解SVM的时候，你觉得你看过这么多资料，使用过这么多次，讲解应该没有问题，但偏偏在分享的时候结结巴巴，漏洞百出？每一次机器学习相关的面试在问到支持向量机（SVM）的时候，尽管你觉得你都准备好了，可是一次又一次败下阵来，以至于觉得问那些问题...

2018-08-23 16:46:26 202916 77

原创数据分析基本技巧及python实现（一）

该文总结数据分析常用手法，在代码中用注释的形式给出必要的阐述。需要安装包：numpy、scipy、numpy、pandas、sklearn检查数据是否符合某项分布#检查数据是否符合正态分布##构建正态分布数据In [1]: import numpy as npIn [2]: import scipy.stats as ssIn [3]: norm_dist = ss.nor...

2018-08-13 16:33:47 655 1

原创相关关系与因果关系

在贝叶斯网络中，BIC是一种常用的评分函数之一，用于评估贝叶斯网络与数据的拟合程度。尽管存在强烈的相关性，但更有可能的是未观察到的变量，如社会经济地位或教育系统质量，可能导致巧克力消费和诺贝尔奖获得者数量的增加。在这个例子中， N 是总体大小（891）， K 是总体中成功状态的数量（342）， n 是样本大小/抽样次数（314）， x是样本中成功的数量（233）。在仅有变量X的情况下，可以创建如图 2 所示的图形以及更多的图形，因为不仅可以是 X>Z>Y（图 2a），还可以是 Z>X>Y 等等。

2023-11-15 11:46:38 177

原创模型压缩部署概述

一，模型在线部署1.1，深度学习项目开发流程1.2，模型训练和推理的不同二，手机端CPU推理框架的优化三，不同硬件平台量化方式总结参考资料芯片厂商芯片型号支持方式支持精度量化方式/范围量化工具华为Hisi系列3519A/3559A/3516C等整网编译int16/int8非线性(对数) 量化AmbarellaCV22/CV25整网编译int8/int16支持权重激活选择不同的位宽量化、自动搜索最优的量化策略工具链CNNGen 的 ParsersNvidia。

2023-10-07 08:51:53 198

原创 Ubuntu18.04安装Postgresql与配置

在Ubuntu中安装Postgresql之后，会自动添加一个postgresql的操作系统的用户，密码是随机的。并且会自动生成一个名字为postgresql的数据库，用户名也是postgresql，密码也是随机的。修改ubuntu操作系统的postgres用户的密码（密码要与数据库用户postgres的密码相同）删除PostgreSQL用户密码 passwd -d 是清空指定用户密码的意思。修改postgresql的用户密码为123456。设置PostgreSQL系统用户的密码。

2023-05-19 09:21:55 1238

原创 python读取大文件

read(size=-1)Read up tosizebytes from the object and return them. As a convenience, ifsizeis unspecified or -1, all bytes until EOF are returned. Otherwise, only one system call is ever made. Fewer thansizebytes may be returned if the operating sys...

2020-10-21 11:45:18 229 1

转载图像变换与平面坐标系的关系

转载自:[1]http://blog.csdn.net/tangyongkang[2]https://zhuanlan.zhihu.com/p/74597564坐标旋转变换公式（围绕原点）如图，在二维坐标上，有一点, 直线的长度为r, 直线和轴的正向的夹角为。直线围绕原点做逆时针方向度的旋转，到达。那么有： (1.1) (1.2)其中代入(1.1), (1.2) ,用行列式表达如下：综上：将图形围绕原点逆时针方...

2020-05-22 14:00:28 782 1

原创 FASTAI and Fine-Tuning BERT with FastAI

这是一篇笔记类型文章，主要是从新学习一下fastai,和实践“pytorch-pretrained-BERT”和“pytorch-transformers”对接fastai 后简洁快速实现bert模型的训练和执行任务。我还是一个小白，大佬看到我的文章奋起拍砖的时候，还请不要打脸。--------现在还只能靠脸吃饭。感谢！The Basics of Fast AIFastai框架基...

2019-12-26 15:58:22 751

原创 NVIDA apex 安装错误

apex配置步骤：1、下载（可以下载到任意位置）git clone https://github.com/NVIDIA/apex.git2、进入目录cd apex3、安装pip install -v --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" . 安装时出现ERRI...

2019-12-25 17:14:37 4576

原创如何将已经存储进文件的list等数据结构读出来

pandas 将 list 形式的数据格式存入了csv读取时，使用eval

2019-11-11 09:15:59 204

原创【NLP】如何评价一个摘要是合适的

根据论文A Simple Theoretical Model of Importance for Summarization总结判断一个摘要的好坏，主要从一下四个维度考虑：冗余度(redundancy)，相关性(relevance)，informativeness，重要性(importance)设定符号和其表示的意义：:表示一个语义单元: 表示从语...

2019-10-10 13:50:12 3143

原创 windows下的pytorch和torchvision

终于到了我们想要用RNN做点什么事情的时候了。可是tensorflow对小白来说，是多么的不友好啊。作为一个即将在三五年之后成为python界精英的我来说，选择pytorch是一个不错的选择。那么pytorch 和tensorflow有什么区别呢？嗯，我也不知道。哪一个更有市场？谁是未来？哪一个更更方便？sorry，百度能查到的我一般都不会写出来的。2018年4月25号，PyT...

2019-09-04 14:25:21 3019 2

转载 -i https://pypi.tuna.tsinghua.edu.cn/simple

EMNLP 2018 | 从对话生成和文本风格转化看文本生成技术NLP四大任务类型：分类、序列标注、文本匹配、文本生成练习地址：https://github.com/FudanNLP/nlp-beginnerhttps://www.zhihu.com/question/324189960总结了NLP里的小方向并给出了任务语料以及最近的成果论文：https://papersw...

2019-08-14 14:32:18 3277

原创 ResNet,DenseNet神经网络的差异和性能分析

参考文献:网络框架的演变:https://www.cnblogs.com/skyfsm/p/8451834.htmldensenet 性能分析:https://blog.csdn.net/u013214262/article/details/82846564http://www.yyliu.cn/post/7cabb4ff.htmlRESNET随着网络深度...

2019-03-15 10:56:05 7477

原创安装一个多节点的Hadoop集群

为什么我们看了很多资料还是不知道hadoop 到底以什么方式工作？为什么我们按照各种版本安装部署hadoop 中途总是困难重重？之前我总结了如何安装一个单节点的hadoop。但hadoop毕竟是分布式计算平台。我们新手的起码入门标尺-----应该是在多个计算机之间搭建好集群。所以我紧接着写这一篇文章。我们回顾一下hadoop的整体结构：图片来源：https://b...

2019-02-21 16:18:41 280

原创安装一个单节点的HADOOP

对于数据科学刚入门的新人来说，一个单节点的HADOOP平台的搭建是比较重要的．他能帮助我们认识HADOOP的结构，更深入的理解这个平台的工作原理．如果你也是ｗｉｎｄｏｗｓ操作系统，那么请跟我一起．或可从此处先了解ｈａｄｏｏｐ在做什么:https://mp.weixin.qq.com/s?__biz=MzIzMTE1ODkyNQ==&mid=2649411054&amp...

2019-02-20 14:39:34 364

原创 matplotlib画多类型图增加图例保存图片设置坐标轴文字方向

&amp;amp;amp;quot;&amp;amp;amp;quot;&amp;amp;amp;quot;import matplotlib.pyplot as pltdata = pd.DataFrame(recallDict).T.reset_index()data.columns = ['area','con','sug']#设置横轴文字方向plt.xticks(rotation=90)#画叠加柱状图plt.bar(

2019-01-22 10:38:59 1531

原创 python3爬虫模拟登录爬取豆瓣电影数据

前面说一些背景大佬万福,若有高见,还请不吝赐教.折腾了一天半,总算解决了豆瓣需要登录和输入验证码才能继续爬数据的问题.故事是这样的,我有一份媒资数据表,表里面都是影片数据,包括:导演\演员\影片类型等等.但是这份数据表的数据缺失太多了,也没有对应上最新的豆瓣评分.为了建立影片之间的相互关系,需要尽可能的补充影片的各项属性.于是,爬取豆瓣数据来丰富该数据表成为首选解决方案.具体的实现思路,...

2019-01-16 16:42:27 5197 16

原创 Ubuntu下 python3安装tensorflow(CPU版) 和 jupyter notebook

大佬万福.我是一个新手菜鸟, 想要入门tensorflow来的.我写的东西是入门级别的(因为怕自己以后忘记).tensorflow的安装是基于单CPU的.您如果要查找GPU版本的Tensorflow安装方法,建议您参考:https://blog.csdn.net/u014797226/article/details/80229887我开始了:确保Virtualenv 和 pip 被...

2019-01-11 11:09:33 453

原创影片推荐系统思考以及用spark.mllib.ALS实现最简单的推荐

影片推荐系统思考1、用户信息的补充和处理背景：智能电视通过机顶盒向用户分发电视节目。事先采集的用户信息及其有限。且电视节目的用户大多以家庭为单位，用户画像也相应呈现出家庭的特征，各项属性，如年龄，性别，学历，等等特征都是不固定的。如何扩展有限的用户特征？方法1：利用用户在办理开通业务时候的登记号码，可以提取用户所在的区域。为方便描述，在本文中，定义该属性名为 AREA。方法2：另外，通过...

2019-01-07 11:36:43 1370

转载机器学习中距离和相似性度量方法

在机器学习和数据挖掘中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如 K 最近邻（KNN）和 K 均值（K-Means）等等。根据数据特性的不同，可以采用不同的度量方法。一般而言，定义一个距离函数 d(x,y), 需要满足下面几个准则：d(x,x) = 0 // 到自己的距离为...

2018-12-27 09:38:35 457

转载 python处理时间格式转换,将xxxx年xx月xx日转化为xxxx-xx-xx格式

publish_Time = "2018年10月10日"array = time.strptime(publish_Time, u"%Y年%m月%d日")try： publishTime = time.strftime("%Y-%m-%d", array)except Exception, e: print eprint publishTime

2018-12-19 13:45:31 3410

amazing picture.zip

一张不太好描述的图片，用来赚点积分。你懂的。算法-:流.-租.:__.1.．.选取k个类‘I·心.—。。首)次“随机选:取“(C二了番赣焉登*E%%z芯...。5..满.是终止条件后终止迭.代..·。。不.5自重新分配.。·。,最人.迭·代数.。·。。_.所.有―炎中·心·移功小于·朱一一值

2020-09-17

CentOS-6.5-x86_64xunlei种子文件.zip

百度网盘下载贼慢，centos 6 64位迅雷种子了解一下　　1．可以把CentOS理解为Red Hat AS系列！它完全就是对Red Hat AS进行改进后发布的！各种操作、使用和RED HAT没有区别！　　2．CentOS完全免费，不存在RED HAT AS4需要序列号的问题。　　3．CentOS独有的yum命令支持在线升级，可以即时更新系统，不像RED HAT那样需要花钱购买支持服务！　　4．CentOS修正了许多RHEL的BUG！　　5．CentOS版本说明：CentOS3.1 等同于 RED HAT AS3 Update1 CentOS3.4 等同于 RED HAT AS3 Update4 CentOS4.0 等同于 RED HAT AS4。

2020-06-02

中文褒贬义词词典.txt

词的褒贬色彩意义，指的是不依赖语言环境而因定下来的附属义。它是社会公认的、约定俗成的，即具有客观性；离开特定的语境便失去其原有的感情色彩、态度色彩意义的词，不属于情感词语。本词典便是依据这个标准来确定收词范围的，因此那些出于临时修辞需要的所谓“贬词褒用”的用例，自然都应该排除在外。（针对帖子，没有上下文作为判据，会漏选很多有用的领域性具有情感色彩的词）

2019-12-03

商品评论情感语料库.txt

中文情感分析语料库，包含酒店、服装、水果、平板、洗发水等 5 个领域的评价数据，每个领域各包含 5000 条正面和负面评价，数据抓取于携程网和京东，仅供科研学习之用，欢迎下载使用！

2019-12-03

中文情感词汇本体.txt

中文情感词汇本体库是大连理工大学信息检索研究室在林鸿飞教授的指导下经过全体教研室成员的努力整理和标注的一个中文本体资源。该资源从不同角度描述一个中文词汇或者短语，包括词语词性种类、情感类别、情感强度及极性等信息。中文情感词汇本体的情感分类体系是在国外比较有影响的Ekman的6大类情感分类体系的基础上构建的。在Ekman的基础上，词汇本体加入情感类别“好”对褒义情感进行了更细致的划分。最终词汇本体中的情感共分为7大类21小类。构造该资源的宗旨是在情感计算领域，为中文文本情感分析和倾向性分析提供一个便捷可靠的辅助手段。中文情感词汇本体可以用于解决多类别情感分类的问题，同时也可以用于解决一般的倾向性分析的问题。本体格式介绍情感词汇本体中，一般的格式为。表1 情感词汇本体格式举例词语词性种类词义数词义序号情感分类强度极性辅助情感分类强度极性无所畏惧 idiom 1 1 PH 7 1 手头紧 idiom 1 1 NE 7 0 周到 adj 1 1 PH 5 1 言过其实 idiom 1 1 NN 5 2

2019-12-03

中文微博情感分析测评数据.txt

说明：数据来自腾讯微博 1。评测数据全集包括 20 个话题，每个话题采集大约1000条微博，共约20000条微博。数据采用xml格式，已经预先切分好句子。每条句子的所有标注信息都包含在元素的属性中。其中opinionated表示是否观点句，polarity表示句子情感倾向。

2019-12-03

伯克利计算机思维训练课程SICP高清版

伯克利计算机学科必学课程,从零开始培养计算机思维和软件工程思想.非常实用,非常棒的文档

2019-03-21

berlelely 计算机SICP16完整文档

如此优秀的一本书，大多数读者上止于第三章，后面的内容就很少再去读了，实在是可惜。设计实现一门编程语言应该是任何一个有技术追求的程序员的梦想，而第四、五章就是教你如何实现一门新的编程语言的解释器。如何扩展扩充修改原有的scheme解释器，如何让你的新语言具备OO功能，如何实现逻辑式编程语言，如何实现具备惰性求值的解释器等等。甚至你可以实现自己的GC, 顺便说一句，GC的引入还得要归功于lisp这门古老的编程语言。当然，最后的两章的内容比真正的“编译技术”要简单一些，毕竟这不是一本介绍编译技术的书籍。作者引入的所有例子都是为了更好的让读者理解程序设计的本质是什么，如何更好的控制系统的客观复杂性。这是一本教你造汽车的书籍，而不是教你开车的书籍。

2019-03-19

ORACLE 快速导出工具sqluldr2

ORACLE 快速导出工具sqluldr2，同时支持linux，Windows，32位，64位环境。解压后再命令行直接调用。

2018-08-20

一个视频文件描述假设检验

该视频文件清楚明白地讲述了假设检验的相关内容。一看即懂！

2018-08-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人