- 博客(579)
- 资源 (32)
- 论坛 (2)
- 收藏
- 关注

原创 MachineLP的CV与NLP
深度学习这些坑你都遇到过吗?(1)检测Faster RCNN:RPN,anchor,sliding windowsDL杂记:YOLOV3之禅(2)识别tf40:图像检索(triplet_loss)之Conditional Similarity Networks(3)OCROCR综述OCR工程git:https://github.com/MachineLP/OCR_repo1.tf20: CNN—识别字符验证码2.身份证识别——生成身份证号和汉字...
2020-05-17 11:07:03
1208

原创 MachineLP博客目录
MachineLP: 其实事物发展有自己的潮流和规律,当你身处潮流之中的时候,要紧紧抓住潮流的机会,想办法脱颖而出,即使没有成功,也会更加洞悉时代的脉搏,收获珍贵的知识和经验。而如果潮流已经退去,这个时候再去往这个方向上努力,只会收获迷茫与压抑,对时代、对自己都没有什么帮助。 但是时代的浪潮犹如海滩上的浪花,总是一浪接着一浪,只要你站在海边,身处这个行业之中,下...
2017-11-02 10:48:28
30544
8
原创 [语音识别] kaldi学习资料汇总
kaldi官方资料:https://kaldi-asr.org/doc/index.html个人kaldi资料整理:https://blog.csdn.net/u010731824kaldi单音素模型训练:https://zhuanlan.zhihu.com/p/184828685Kaldi 查看不同文件用到的命令:https://zhuanlan.zhihu.com/p/184953521kaldi中的说话人自适应:https://zhuanlan.zhihu.com/p/26415...
2020-10-28 21:30:53
157
原创 [推荐系统] 推荐知识点概览
推荐系统的技术架构图:Netflix 的推荐系统的经典架构图:深度学习基础:可利用的特征:spark进行特征处理:embedding:spark生成embedding:高并发推荐服务:存储:召回:...
2020-10-28 09:11:40
72
原创 [pytorch] PyTorch图像分类框架(支持多种主流分类模型)
Git Repo:https://github.com/MachineLP/PyTorch_image_classifierCV 训练/测试/部署分类任务| *** | 具体 | 样例 || :-----------------: | :---------???? :---------????| 模型方面 | (efficientnet/resnest/seresnext等) | 1 || 数据增强 | (旋转/镜像/对比度等、mixup/cutmix) | 2 || 损失函数 | (交叉熵/f
2020-10-21 09:44:06
405
2
原创 [模型部署] 模型分布式服务部署方案:grpc,flask;docker
Git Repo:https://github.com/MachineLP/QDServing
2020-09-08 15:56:53
184
原创 [ES] es 搜索的高级功能:搜索并按照不同字段sore权重计算得分排序
电商搜索中一个通用搜索语句:GET /_search{ "query": { "function_score": { "query": { "bool": { "should": [ { "match_phrase": { "title": { ...
2020-08-03 11:05:05
224
原创 [TextMatch框架] 基于召回和排序的文本搜索
git clone https://github.com/MachineLP/TextMatchcd TextMatchexport PYTHONPATH=${PYTHONPATH}:../TextMatchpython tests/core_test/text_search_test.pytests/core_test/text_search_test.pyimport sysfrom textmatch.core.text_match import TextMatchfrom text
2020-07-19 17:13:21
252
原创 [TextMatch框架] QA Match (QA匹配)
run examplesgit clone https://github.com/MachineLP/TextMatchcd TextMatchexport PYTHONPATH=${PYTHONPATH}:../TextMatchpython tests/core_test/qa_match_test.pyqa matchimport sysfrom textmatch.core.qa_match import QMatch, AMatch, SemanticMatchtest_dic
2020-07-18 21:13:06
261
原创 [TextMatch框架] 基于faiss的搜索
run examplesgit clone https://github.com/MachineLP/TextMatchcd TextMatchexport PYTHONPATH=${PYTHONPATH}:../TextMatchpython tests/tools_test/faiss_test.pytests/tools_test/faiss_test.pyimport sysimport json import timeimport faissimport numpy as
2020-07-18 21:06:43
240
原创 [git] github提交没有记录Contributions
最近在使用github时,发现提交的记录并没有统计在GitHub首页的Contributions Graph里(贡献图上没有绿块),而且提交列表里的名字也不能点击,没有链接。通过查资料发现,是由于我提交时填写的邮箱与github账号里的邮箱不一致导致,github是以邮箱关联GitHub账号的。还可以通过下面方式恢复以前的提交记录:使用脚本来改变某个repo的Git历史我们已经创建了一个脚本,使用正确的姓名和电子邮件地址提交后,你以前提交的所有的commits中的作者信息及提交者..
2020-07-18 07:47:33
161
原创 [solr] solr 联想输入实现方法
索引与前缀查询 方案一 Trie树 + TopK算法Trie树即字典树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。Trie是一颗存储多个字符串的树。相邻节点间的边代表一个字符,这样树的每条分支代表一则子串,而树的叶节点则代表完整的字符串。和普通树不同的地方是,相同的字符串前缀共享同一条分支。例如,给出一组单词inn, in...
2020-07-08 11:12:03
139
原创 [solr] solr 增量导入数据、定时索引
一、引言 1 https://blog.csdn.net/u014365862/article/details/107095161中已经介绍如何全量导入MySQL的数据全量导入在数据量大的时候代价非常大,一般来说都会适用增量的方式来导入数据,下面介绍如何增量导入MYSQL数据库中的数据,以及如何设置 定时来做。二、增量从MYSQL数据库导入数据: 1、数据库表的更改: 添加UPDATATIME字段。 前面已经创建好了一个UserInfo的表,这里为了能够进行增量导入,需...
2020-07-07 12:05:18
92
1
原创 [ab] 压测测试:apacheBench
吞吐率(Requests per second)概念:服务器并发处理能力的量化描述,单位是reqs/s,指的是某个并发用户数下单位时间内处理的请求数。某个并发用户数下单位时间内能处理的最大请求数,称之为最大吞吐率。计算公式:总请求数 / 处理完成这些请求数所花费的时间,即Request per second = Complete requests / Time taken for tests并发连接数(The number of concurrent connections)概念:某个时
2020-07-06 23:19:55
106
原创 [ES] es 安装、配置jieba分词
(1)下载es 5.3.0: nohup wgethttps://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.3.0.zip> wget.log 2>&1 & 解压后:./bin/elasticsearch(2) elasticsearch-jieba-plugin: https://github.com/sing1ee/ela...
2020-07-06 23:16:05
305
原创 [solr] solr Similarity:切换不同相似度计算方法
Similarity改变solr的打分机制;solr本身已经提供了几种算法org.apache.solr.search.similarities.BM25SimilarityFactoryorg.apache.solr.search.similarities.DefaultSimilarityFactoryorg.apache.solr.search.similarities.DFRSimilarityFactoryorg.apache.solr.search.similarities.IB
2020-07-03 21:45:33
189
原创 [solr] solr 测试 (python、curl、界面 )
curl测试:curl http://121.40.86.204:8983/solr/test/select?q=681&rows=20&wt=json&indent=true 或 value='echo -n "海蓝之谜" | xxd -ps | tr -d '\n' | sed -r 's/(..)/%\1/g' 'echo $value # %e5%bc%a0%e4%b8%89 # 然后用curl传递编码后的参数curl -G \--data-url
2020-07-03 13:42:11
92
原创 [solr] solr5.5.2配置结巴分词工具
为什么选择结巴分词分词效率高 词料库构建时使用的是jieba (python)结巴分词Java版本下载git clone https://github.com/huaban/jieba-analysis编译 cd jieba-analysis mvn install 注意如果mvn版本较高,需要修改pom.xml文件,在plugins前面增加 或者直接下载jieba-analysis-1.0.2.jar:链接:https://pan.baidu....
2020-07-03 10:20:56
99
原创 [solr] Solr8.5.2 安装、中文分词以及定时更新索引
1.官网下载地址直接下载 zip格式即可 2.解压下载的压缩包即可完成Solr安装。 3.打开DOS,路径切换至solr_home\bin,执行命令:solr start –p 8983,将solr在8983端口运行,看到以下图片就证明solr启动成功了。(Solr默认端口为8983)solr常用的命令solr start -p p_num 启动solrsolr restart -p p_num 重启solrsolr stop -p p_num 关闭solrsolr create -...
2020-07-02 23:10:25
273
原创 [文本纠错] pycorrector框架训练
深度模型使用说明Install全自动安装:pip install pycorrector半自动安装:git clone https://github.com/shibing624/pycorrector.gitcd pycorrectorpython setup.py install通过以上两种方法的任何一种完成安装都可以。如果不想安装,可以下载github源码包,安装下面依赖再使用。安装依赖kenlm安装pip install https://github.com/kpu/k
2020-06-27 18:14:54
820
原创 [文本纠错] pycorrector框架测试
pycorrector:https://github.com/shibing624/pycorrectorpycorrector中文文本纠错工具。音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。python3.6开发。pycorrector依据语言模型检测错别字位置,通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。Question中文文本纠错任务,常见错误类型包括:谐音字词,如 配副眼睛-配副眼镜混淆音字词,如 流浪织女-牛郎织女字词顺序颠倒,如
2020-06-27 18:05:05
629
原创 [python] python 虚拟环境构建 & GPU环境
GPU/python环境配置与验证。(1)GPU加速型实例安装NVIDIA GPU驱动及CUDA工具包:https://support.huaweicloud.com/usermanual-ecs/zh-cn_topic_0149470468.html#ZH-CN_TOPIC_0149470468__section1034245773916(2)华为云linux服务器部署TensorFlow-gpu全攻略:https://www.cnblogs.com/zxyza/p/10535939.htm...
2020-06-24 12:55:05
248
原创 [TextMatch框架] 生成词云
TextMatchTextMatch is a semantic matching model library for QA & text search … It’s easy to train models and to export representation vectors.[TextMatch框架] : 文本匹配/文本分类/文本embedding/文本聚类/文本检索(bow/ifidf/ngramtf-df/bert/albert/bm25/…/nn/gbdt/xgb/kmeans
2020-06-20 10:29:26
117
原创 [CV] 人脸贴纸
face_stickers本项目实现人脸贴纸:>(1)人脸检测:mtcnn。>(2)放射变换将贴纸映射到面部。>(3)numba:实现实时人脸贴纸。代码运行:> git clone https://github.com/MachineLP/face_stickers> cd fase_stickers> 图片测试:python test.py> 视频测试:python video.py效果如下:...
2020-06-13 20:11:51
478
原创 [pytorch] 图像目标检测框架【Efficientnet0/1/2/3/4/5/6/7】
以kaggle的SIIM-ISIC Melanoma Classification比赛:https://www.kaggle.com/c/global-wheat-detection; 介绍efficientnet模型在目标检测任务上的使用。数据链接:https://www.kaggle.com/c/global-wheat-detection/data代码如下: (加入mixup/cutmix)import syssys.path.insert(0, "./timm-efficientd.
2020-06-13 10:02:59
638
3
原创 [pytorch] 图像分类框架【Efficientnet0/1/2/3/4/5/6/7】
以kaggle的SIIM-ISIC Melanoma Classification比赛:https://www.kaggle.com/c/siim-isic-melanoma-classification; 介绍efficientnet模型在分类任务上的使用。数据链接:https://www.kaggle.com/shonenkov/melanoma-merged-external-data-512x512-jpeg(融合2019和2010年数据)代码如下: (加入mixup/cutmix)..
2020-06-13 10:00:28
526
原创 [TextMatch框架] 简介
TextMatchTextMatch is a semantic matching model library for QA & text search … It’s easy to train models and to export representation vectors.run examplesgit clone https://github.com/MachineLP/TextMatchcd TextMatchexport PYTHONPATH=${PYTHONPATH}:.
2020-06-12 21:55:05
1234
原创 [TextMatch框架] server
TextMatchTextMatch is a semantic matching model library for QA & text search … It’s easy to train models and to export representation vectors.TextMatch/server模块包含 :(基于MLFlow的server)model_server.pyimport osimport sysimport timeimport p...
2020-06-12 17:11:03
217
原创 [TextMatch框架] tests
TextMatchTextMatch is a semantic matching model library for QA & text search … It’s easy to train models and to export representation vectors.TextMatch/tests模块包含 :(1)core_test qa_match_test.py text_embedding_test.py(2)model...
2020-06-12 17:09:45
140
原创 [TextMatch框架] train model
TextMatchTextMatch is a semantic matching model library for QA & text search … It’s easy to train models and to export representation vectors.
2020-06-12 17:08:37
160
原创 [TextMatch框架] models
TextMatchTextMatch is a semantic matching model library for QA & text search … It’s easy to train models and to export representation vectors.textmatch/models模块包含 :(1)text_classifier:文本分类任务。(2)text_embedding:文本提取embedding向量,主要有bow、tfidf、n...
2020-06-12 17:07:00
98
原创 [TextMatch框架] Run examples
TextMatchTextMatch is a semantic matching model library for QA & text search … It’s easy to train models and to export representation vectors.Let’s Run examples !下面先来简单的运行一个样例:git clone https://github.com/MachineLP/TextMatchcdTextMatch...
2020-05-17 22:40:51
156
原创 [文本语义相似] 基于bm25算法
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍基于bm25算法。代码如下:import mathimport jiebafrom utils import utils# 测试文本text = '''自然语言处理是计算机科学领域...
2020-05-17 22:37:24
123
原创 [文本语义相似] 基于simhash相似度
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍基于simhash相似度。算法描述:先计算两句子的simhash二进制编码,然后使用海明距...
2020-05-07 10:35:32
339
原创 [文本语义相似] 基于编辑距离相似度
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍基于编辑距离相似度。import Levenshtein # 第三方库实现def...
2020-05-07 10:31:23
216
原创 [文本语义相似] 基于Jaccard相似度
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍基于Jaccard相似度。import osimport jiebaimport ...
2020-05-07 10:09:20
337
原创 [文本语义相似] 基于bert的余弦距离(bert4keras实现)
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍基于bert的余弦距离计算相似度。...
2020-05-04 12:25:29
810
原创 [图灵联邦] 视频点击预测大赛
比赛链接及其数据下载:https://www.turingtopia.com/competitionnew/detail/e4880352b6ef4f9f8f28e8f98498dbc4/sketchTop1:https://github.com/ouc16020021031/video-click-TOP1分享两份代码:(1)# This Python 3 envi...
2020-05-04 10:23:30
216
原创 [天池比赛] Multimodalities Recall
比赛链接及其数据下载:https://tianchi.aliyun.com/competition/entrance/231786/informationbase model:(该base是Do大哥一小时搞定的,感谢)不finetune bert是0.55左右,finetunebert应该是0.60左右。import base64import argparsef...
2020-05-04 09:43:53
337
原创 [文本语义相似] 基于ngram-tf-idf的余弦距离(gensim实现)
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍基于bow的余弦距离计算相似度。基于gensim的方式如下:import os...
2020-05-04 09:31:30
209
Face Recognition(face_recognition) Using Hadoop Streaming API
2017-10-08
caffe深度学习薛开宇笔记实例-基于卷积神经网络的声音识别
2016-12-27
Deep Learning textbook
2016-12-09
训练xml文件时,产生info.txt文件
2016-11-01
tensorflow 学习资料
2016-10-18
斯坦福大学机器学习课程个人笔记完整版
2016-04-19
MachineLP的留言板
发表于 2020-01-02 最后回复 2020-01-02
用vhdl语言实现NAND Flash的ECC校验
发表于 2014-04-18 最后回复 2014-04-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人 TA的粉丝