- 博客(51)
- 资源 (10)
- 收藏
- 关注
原创 [NLP] Elasticsearch 全流程配置
OS: linux jdk 若机器已配置java环境,则可以跳过此部分。$ echo $JAVA_HOME/usr/lib/jvm/java-8-openjdk-amd64/jre/bin/java否则:先看是否有java(可能仅仅是没有配置环境变量)若有,则按如下步骤找到jdk的位置(如下所示,本机中,该位置为:/usr/lib/jvm/java-8-openjdk-amd64/jre/bin/java):$ java -versi...
2022-05-08 13:16:11 780
原创 [NLP]keras模型部署加速(ONNX Speed Keras_Model Inference)
目录使用如下方法,可将Keras_model写成pb文件tf2onnx 将pbfile转成onnx背景:用keras 训练 NER 模型,模型架构为:Roberta_CRF。整个模型保存下来,1.2G 左右。欲部署在cpu环境下,需要对模型进行压缩和加速。没有找到bert的蒸馏后的中文预训练模型。整体方案是:keras_weights -> tf_pb_model(freeze graph) -> tf2onnxps:直接使用keras2onnx,因为tran
2022-04-20 15:02:17 1388
原创 [OCR]基于垂直投影的单行文字图像_字分割
背景:面临一个银行票据识别任务。目标是:将一行金额或日期描述文本作OCR识别。由于数据包含手写体和多版本多字体机打文字,采用单文字拼接方式做数据增强。数据增强思路:1、将单行文字图像切成单字分别存储,得到某个字的多个表达形式集合。2、对于每一条模拟label,在某字的表达形式集合中采样。3、拼接字生成增强数据。涉及到一些问题的解决:1、cv2 读写中文目录报错的问题。2、切分成字的过程要考虑原始图像的明暗变化,实现不同明暗程度下的单...
2022-02-18 14:45:10 2112
原创 flask 多http访问方式,解决ajax跨域
import flaskimport jsonapp = flask.Flask(__name__)@app.route("/predict", methods=["GET","POST"])def predict(): data = {"success": False} if flask.request.method == 'POST': params = json.loads(flask.request.get_data()) #print(pa
2021-05-17 14:17:26 193
原创 ckpt 转 pb 模型
tf1.12checkpoints like :we should know our input and output layers’ name:now the code to make the pb is:import osos.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'import tensorflow as tfsave_dir = 'checkpoints/'save_path = os.path.join(save_dir, 'best_val
2021-05-17 14:11:57 167
原创 [DIP]如何提取文件中的公章,并识别其朝向是否准确
任务描述,我们需要知道,我们盖在文件上的红章是否是端正的。需要解决的问题:1、图章的识别2、图章的定位3、图章的方向判定思路:图章基本上是红色的,我们先根据颜色提取可能的图章区域。当然,假如文档中,还有其他红色的区域,这一步都会提取出来。img = cv2.imdecode(np.fromfile("jingshanshi_muti_stamp.png", dtype=np.uint8), -1)def extract_red(img): ''''使用inRa
2020-09-04 17:38:18 2753 4
原创 【DIP】一种去水印的方案
这是一个用来去除水印的小demo。适合于去除水印颜色较浅,保留元素颜色较深的图片。比如白底黑字,但带白色或灰色的图片或者其他彩色图片但有白色或灰色水印该算法对于偏暗的图片去水印的效果不是很好。基于滑动窗口的图片去水印方法 传统去水印方式是统计图片上水印的像素值范围,将RGB值属于某一范围内的像素赋值为[0,0,0]或[255,255,255]已达到去水印效果。 但对于受光照影响或本身图片较暗的图片,上述去水印方法效果不理想。 针对以上特征的图片,采用局部去水印的方式
2020-08-20 17:46:02 453
原创 【NLP】LSTM总结记录
前言如果有一天,你发现有大佬会看你写的东西,你感觉一切的一切都变得有意义了。好比一个资质极差的凡人,终于发现自己可以凭借后天的极限奋斗,能有希望入道成仙,因而欢喜无尽。希望未来的那么一天,也有人会跟我说一句:吾道不孤也!----感谢boss上跟我聊过的这位大佬!这篇文章写一些关于LSTM的总结。RNN为了更加好的建模一些序列化信息,比如文本,语音,我们有了RNN(Recurre...
2020-05-08 09:16:37 2060
原创 【ML】从HMM到CRF,我学到了什么?
可以略过的前言我必须要先承认,这是一篇入门级别的文章。源自上次电话面试中被问到HMM与CRF的异同,我没有回答好,于是写一篇粗浅的总结性文章,希望能让自己有所进步。若有不足之处,还请大佬们不吝赐教。百拜为谢!以前总结HMM与CRF的区别是什么,只是记住了HMM是判别模型,CRF是生成模型,深一点的,HMM针对于建模,而CRF是针对于建模,至于他们的原理是什么,他们到底在干什么,根本没有弄明...
2020-04-28 14:40:41 718 1
原创 【NLP】bilstmCRF模型进行中文命名实体识别的实战
写在前面纵观接触到的NLP任务,我们发现了,绝大部分任务或多或少地依赖NER的能力。之前仓促地总结归纳了一篇关于命名实体识别的介绍性博客,但这只能非常有限的从前辈大神成熟的理论和我不成熟的思考中,得到如萤火之光般,稍纵即逝的短暂性感悟。而这之后,面对同样的问题和任务,依旧一头雾水,没有任何获得感让人内心焦躁,各位大兄弟,不知道你们是否也有同感呢?不管怎样,实践出真知,决定还是自...
2019-11-08 15:51:58 3284 3
原创 【NLP】TextRank&NMF文本摘要总结
TextRank&NMF文本摘要总结我们在用TextRank作文本摘要时,提出一种新颖的方法来解决长文本的摘要提取问题。TextRank的思想很简单,其基本思想来源于谷歌的PageRank算法, 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。和 LDA、HMM 等模型不同...
2019-09-26 13:58:15 894
原创 【NLP】seq2seq&attention文本摘要实现
Seq2seq文本摘要总结目录前言结构EncoderATTENTIONDecoderTrainingevaluate前言之前尝试用textRank+NMF做长文本摘要,但textRank是基于句子间距离的,其结果是文本中句子的重要性排序,输出的是文本中现成的句子。这对于文章内容的理解是不够的。当某个思想需要用多个句子表达,或者长文本中包含过于复杂...
2019-09-26 13:19:34 5356 12
原创 【NLP】命名实体识别(NER)的BiLSTM-CRF模型
目录NER 的各种方法基于字的BiLSTM-CRF模型CRF层详解Emission scoreTransition scoreCRF loss function代码模型效果骚年,来一份“人民日报”吗?骚年,你搞懂了LSTM了没?有“人民日报”懂LSTM,我们就开车出发啦!NER 的各种方法对于NER 的各种方法基本上归于三类方法:...
2019-09-12 16:26:34 5768
原创 【ML】由最大似然到EM算法从入门到入门
一切为了梦想。期望在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。大数定律规定,随着重复次数接近无穷大,数值的算术平均值几乎肯定地收敛于期望值。(百度百科)期望反应随机变量平均取值的大小,于是离散性随机变量的期望表示为:,这里是离散取值的概率。连续型随机变量的期...
2019-04-10 14:43:50 602
原创 【ML】随机森林(Random Forest) 从入门到放弃再到掌握
一切为了学习,一切为了面试,一切为了成长,一切为了梦想。加油希望这个文章不仅是我的笔记,也成为帮助您进一步理解RF的桥梁,大佬万福,请不吝赐教!让我们先看看集成学习基础理论集成学习集成学习的主要思路是先通过一定的规则生成多个学习器,再采用某种集成策略进行组合,最后综合判断输出最终结果。一般而言,通常所说的集成学习中的多个学习器都是同质的"弱学习器"。基于该弱学习器,通过样本集...
2019-04-09 11:05:09 4236
原创 【ML】决策树(decesion Tree)从入门到放弃再到掌握
希望写一篇关于决策树的总结,对自己所学做一个梳理.诚盼各位大佬不吝赐教。一切为了学习,一切为了面试,一切为了成长,一切为了梦想。人类做决策的时候,往往基于一些经验或者条件,比如我开始写这篇文章之前,我做了这么一些判断:1、我是否一心想要做工程师?——>是(执行下一步)/否(放弃写博客)2、我是否需要写一篇博客来加深一下关于决策树的印象?——> 是(执行下一步)/否...
2019-04-08 16:39:03 3271
原创 【ML】逻辑回归(Logistic Regression-LR)从入门到放弃再到掌握
logistic regression (LR)是一个简单又复杂的模型.让我们一起来回顾和总结.一切为了学习,一切为了面试,一切为了成长,一切为了梦想。LR简单是因为从其根本上来学习,他很容易了解.复杂则在于:LR以其简单,经济,相对实用的原因经常被使用,被用的多,自然就被理解的透彻,而当一个对其理解透彻之人(比如面试官)对一个还不怎么理解的人(比如说我)针对性地提问的时候,他的复杂就...
2019-03-20 14:36:27 7519
原创 【ML】支持向量机(SVM)从入门到放弃再到掌握
朋友,你通过各种不同的途经初次接触支持向量机(SVM)的时候,是不是会觉得这个东西耳熟能详,感觉大家都会,却唯独自己很难理解? 每一次你的老板或者同仁让你讲解SVM的时候,你觉得你看过这么多资料,使用过这么多次,讲解应该没有问题,但偏偏在分享的时候结结巴巴,漏洞百出? 每一次机器学习相关的面试在问到支持向量机(SVM)的时候,尽管你觉得你都准备好了,可是一次又一次败下阵来,以至于觉得问那些问题...
2018-08-23 16:46:26 202916 77
原创 数据分析基本技巧及python实现(一)
该文总结数据分析常用手法,在代码中用注释的形式给出必要的阐述。需要安装包:numpy、scipy、numpy、pandas、sklearn检查数据是否符合某项分布#检查数据是否符合正态分布##构建正态分布数据In [1]: import numpy as npIn [2]: import scipy.stats as ssIn [3]: norm_dist = ss.nor...
2018-08-13 16:33:47 655 1
原创 相关关系与因果关系
在贝叶斯网络中,BIC是一种常用的评分函数之一,用于评估贝叶斯网络与数据的拟合程度。尽管存在强烈的相关性,但更有可能的是未观察到的变量,如社会经济地位或教育系统质量,可能导致巧克力消费和诺贝尔奖获得者数量的增加。在这个例子中, N 是总体大小(891), K 是总体中成功状态的数量(342), n 是样本大小/抽样次数(314), x是样本中成功的数量(233)。在仅有变量X的情况下,可以创建如图 2 所示的图形以及更多的图形,因为不仅可以是 X>Z>Y(图 2a),还可以是 Z>X>Y 等等。
2023-11-15 11:46:38 177
原创 模型压缩部署概述
一,模型在线部署1.1,深度学习项目开发流程1.2,模型训练和推理的不同二,手机端CPU推理框架的优化三,不同硬件平台量化方式总结参考资料芯片厂商芯片型号支持方式支持精度量化方式/范围量化工具华为Hisi系列3519A/3559A/3516C等整网编译int16/int8非线性(对数) 量化AmbarellaCV22/CV25整网编译int8/int16支持权重激活选择不同的位宽量化、自动搜索最优的量化策略工具链CNNGen 的 ParsersNvidia。
2023-10-07 08:51:53 198
原创 Ubuntu18.04安装Postgresql与配置
在Ubuntu中安装Postgresql之后,会自动添加一个postgresql的操作系统的用户,密码是随机的。并且会自动生成一个名字为postgresql的数据库,用户名也是postgresql,密码也是随机的。修改ubuntu操作系统的postgres用户的密码(密码要与数据库用户postgres的密码相同)删除PostgreSQL用户密码 passwd -d 是清空指定用户密码的意思。修改postgresql的用户密码为123456。设置PostgreSQL系统用户的密码。
2023-05-19 09:21:55 1238
原创 python读取大文件
read(size=-1)Read up tosizebytes from the object and return them. As a convenience, ifsizeis unspecified or -1, all bytes until EOF are returned. Otherwise, only one system call is ever made. Fewer thansizebytes may be returned if the operating sys...
2020-10-21 11:45:18 229 1
转载 图像变换与平面坐标系的关系
转载自:[1]http://blog.csdn.net/tangyongkang[2]https://zhuanlan.zhihu.com/p/74597564坐标旋转变换公式(围绕原点)如图, 在二维坐标上,有一点, 直线 的长度为r, 直线 和 轴的正向的夹角为。 直线 围绕原点做逆时针方向 度的旋转,到达。那么有: (1.1) (1.2)其中代入(1.1), (1.2) ,用行列式表达如下:综上:将图形围绕原点逆时针方...
2020-05-22 14:00:28 782 1
原创 FASTAI and Fine-Tuning BERT with FastAI
这是一篇笔记类型文章,主要是从新学习一下fastai,和实践“pytorch-pretrained-BERT”和“pytorch-transformers”对接fastai 后简洁快速实现bert模型的训练和执行任务。我还是一个小白,大佬看到我的文章奋起拍砖的时候,还请不要打脸。--------现在还只能靠脸吃饭。感谢!The Basics of Fast AIFastai框架基...
2019-12-26 15:58:22 751
原创 NVIDA apex 安装错误
apex配置步骤:1、下载(可以下载到任意位置)git clone https://github.com/NVIDIA/apex.git2、进入目录cd apex3、安装pip install -v --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" . 安装时出现ERRI...
2019-12-25 17:14:37 4576
原创 【NLP】如何评价一个摘要是合适的
根据论文A Simple Theoretical Model of Importance for Summarization总结判断一个摘要的好坏,主要从一下四个维度考虑:冗余度(redundancy),相关性(relevance),informativeness,重要性(importance)设定符号和其表示的意义::表示一个语义单元: 表示从语...
2019-10-10 13:50:12 3143
原创 windows下的pytorch和torchvision
终于到了我们想要用RNN做点什么事情的时候了。可是tensorflow对小白来说,是多么的不友好啊。作为一个即将在三五年之后成为python界精英的我来说,选择pytorch是一个不错的选择。那么pytorch 和tensorflow有什么区别呢?嗯,我也不知道。哪一个更有市场?谁是未来?哪一个更更方便?sorry,百度能查到的我一般都不会写出来的。2018年4月25号,PyT...
2019-09-04 14:25:21 3019 2
转载 -i https://pypi.tuna.tsinghua.edu.cn/simple
EMNLP 2018 | 从对话生成和文本风格转化看文本生成技术NLP四大任务类型:分类、序列标注、文本匹配、文本生成练习地址:https://github.com/FudanNLP/nlp-beginnerhttps://www.zhihu.com/question/324189960总结了NLP里的小方向并给出了任务语料以及最近的成果论文:https://papersw...
2019-08-14 14:32:18 3277
原创 ResNet,DenseNet神经网络的差异和性能分析
参考文献:网络框架的演变:https://www.cnblogs.com/skyfsm/p/8451834.htmldensenet 性能分析:https://blog.csdn.net/u013214262/article/details/82846564http://www.yyliu.cn/post/7cabb4ff.htmlRESNET随着网络深度...
2019-03-15 10:56:05 7477
原创 安装一个多节点的Hadoop集群
为什么我们看了很多资料还是不知道hadoop 到底以什么方式工作?为什么我们按照各种版本安装部署hadoop 中途总是困难重重? 之前我总结了如何安装一个单节点的hadoop。但hadoop毕竟是分布式计算平台。我们新手的起码入门标尺-----应该是在多个计算机之间搭建好集群。所以我紧接着写这一篇文章。 我们回顾一下hadoop的整体结构: 图片来源:https://b...
2019-02-21 16:18:41 280
原创 安装一个单节点的HADOOP
对于数据科学刚入门的新人来说,一个单节点的HADOOP平台的搭建是比较重要的.他能帮助我们认识HADOOP的结构,更深入的理解这个平台的工作原理.如果你也是windows操作系统,那么请跟我一起.或可从此处先了解hadoop在做什么:https://mp.weixin.qq.com/s?__biz=MzIzMTE1ODkyNQ==&mid=2649411054&...
2019-02-20 14:39:34 364
原创 matplotlib画多类型图增加图例保存图片设置坐标轴文字方向
"""import matplotlib.pyplot as pltdata = pd.DataFrame(recallDict).T.reset_index()data.columns = ['area','con','sug']#设置横轴文字方向plt.xticks(rotation=90)#画叠加柱状图plt.bar(
2019-01-22 10:38:59 1531
原创 python3爬虫模拟登录爬取豆瓣电影数据
前面说一些背景大佬万福,若有高见,还请不吝赐教.折腾了一天半,总算解决了豆瓣需要登录和输入验证码才能继续爬数据的问题.故事是这样的,我有一份媒资数据表,表里面都是影片数据,包括:导演\演员\影片类型等等.但是这份数据表的数据缺失太多了,也没有对应上最新的豆瓣评分.为了建立影片之间的相互关系,需要尽可能的补充影片的各项属性.于是,爬取豆瓣数据来丰富该数据表成为首选解决方案.具体的实现思路,...
2019-01-16 16:42:27 5197 16
原创 Ubuntu下 python3安装tensorflow(CPU版) 和 jupyter notebook
大佬万福.我是一个新手菜鸟, 想要入门tensorflow来的.我写的东西是入门级别的(因为怕自己以后忘记).tensorflow的安装是基于单CPU的.您如果要查找GPU版本的Tensorflow安装方法,建议您参考:https://blog.csdn.net/u014797226/article/details/80229887我开始了:确保Virtualenv 和 pip 被...
2019-01-11 11:09:33 453
原创 影片推荐系统思考以及用spark.mllib.ALS实现最简单的推荐
影片推荐系统思考1、用户信息的补充和处理背景:智能电视通过机顶盒向用户分发电视节目。事先采集的用户信息及其有限。且电视节目的用户大多以家庭为单位,用户画像也相应呈现出家庭的特征,各项属性,如年龄,性别,学历,等等特征都是不固定的。如何扩展有限的用户特征?方法1:利用用户在办理开通业务时候的登记号码,可以提取用户所在的区域。为方便描述,在本文中,定义该属性名为 AREA。方法2:另外,通过...
2019-01-07 11:36:43 1370
转载 机器学习中距离和相似性度量方法
在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:d(x,x) = 0 // 到自己的距离为...
2018-12-27 09:38:35 457
转载 python处理时间格式转换,将xxxx年xx月xx日转化为xxxx-xx-xx格式
publish_Time = "2018年10月10日"array = time.strptime(publish_Time, u"%Y年%m月%d日")try: publishTime = time.strftime("%Y-%m-%d", array)except Exception, e: print eprint publishTime
2018-12-19 13:45:31 3410
amazing picture.zip
2020-09-17
CentOS-6.5-x86_64xunlei种子文件.zip
2020-06-02
中文褒贬义词词典.txt
2019-12-03
商品评论情感语料库.txt
2019-12-03
中文情感词汇本体.txt
2019-12-03
中文微博情感分析测评数据.txt
2019-12-03
berlelely 计算机SICP16完整文档
2019-03-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人