自然语言处理和深度学习
huxuanlai
大数据架构师,算法建模工程师,河南研发和信用提升志愿者。
展开
-
文档开发中预览/编辑/格式转换/内容提取/语言识别/文件服务器/相关的开源/商业组件和库
能用于项目开发的office文件功能:-------------------------pageoffice: 在线编辑office http://www.zhuozhengsoft.com/java/WebOffice (java/jsp) :在线编辑office , 商业版贵kkFileView:文档在线预览 https://github.com/kekingcn/kkFileViewgo-fastdfs:文件服务器UReport2:动态报表------------------------原创 2021-01-15 20:09:21 · 221 阅读 · 0 评论 -
文档翻译和文本翻译的区别、文档翻译的配套开发组件
文档翻译和文本翻译的区别:-----文档翻译:各类原始文档转换为通用格式(单独一个service),文档图表内容提取(单独一个service)、算法工具翻译和文档格式还原(单独一个service)、专业翻译公司的修改译本。文本翻译:算法工具翻译后文档(单独一个service)、修改译本。形成产品除了核心功能还需要配套的服务:-----翻译服务的高可用:大文档翻译可能经常出错。翻译服务队列:就像打印机需要排队打印一样,文档翻译也需要,尤其针对工业机构、媒体、情报和图书机构翻译文件的同步:文档原创 2021-01-14 20:55:50 · 466 阅读 · 0 评论 -
法院AI的一些场景-ocr/智能语音--布控/卷宗数字化/违禁取证/智能庭审
法院AI的一些场景:----------(布控)人脸识别服务:1. 设备管理(接数)2. 人员管理(布控对象)3. 图片管理(线索图片)4. 图像搜索(搜索,临时对图片库中布控对象进行查询)5. 监控任务(搜索,持续对视频流中人的比对)6. 预警管理(告警)7. 实时监控(以告警作为聚焦点查看监控设备实时图像)1/2/3是布控的基础设施,4是一种场景,5/6/7是一种场景。----------(法院卷宗数字化)ocr:卷宗智能编目:将各类证照通过ocr提取后归类添加标注卷宗原创 2021-01-07 14:57:49 · 381 阅读 · 0 评论 -
端到端语音识别的espnet在cpu上aishell预训练模型中文语音配置跑通
#系统环境ubuntu 20.04 lts, 系统安装的python3默认为python3.8#安装环境:sudo apt updatesudo apt-get install python3 cmake sox libsndfile1-dev ffmpeg flac -ycurl https://bootstrap.pypa.io/get-pip.py -o get-pip.pypython3 get-pip.pygit clone https://github.com/espnet/es原创 2020-12-24 18:34:12 · 2527 阅读 · 2 评论 -
用于语音识别的espnet在cpu上英文语音简单配置跑通
#安装环境:sudo apt-get install cmake sox libsndfile1-dev ffmpeg flacgit clone https://github.com/espnet/espnetcd espnet/tools./setup_python.sh $(command -v python3)make TH_VERSION=1.3.1 CPU_ONLY=0#测试asr demo前的环境准备cd egs/tedlium2/asr1 && . ./pat原创 2020-12-22 10:20:04 · 871 阅读 · 2 评论 -
自动生成视频字幕的库autosub
自动生成视频字幕的库:https://github.com/agermanidis/autosub主要步骤:1. ffmpeg抽取视频中语音流2. audioop抽取出的单句话的语音片段(并行)3. 调用google speech api翻译片段(并行)4. 生成语音识别结果,构造srt字幕格式这个库的思路可以用于录音文件识别/呼叫中心音频文件转写,但基础是短语音识别。...原创 2020-12-15 16:00:47 · 882 阅读 · 0 评论 -
DeepSpeech(tensorflow)和ASRT_SpeechRecognition识别效果对比
######DeepSpeech(tensorflow)######pip3 install deepspeechwget https://github.com/mozilla/DeepSpeech/releases/download/v0.9.3/deepspeech-0.9.3-models-zh-CN.pbmmwget https://github.com/mozilla/DeepSpeech/releases/download/v0.9.3/deepspeech-0.9.3-models-zh原创 2020-12-11 19:54:11 · 1065 阅读 · 0 评论 -
区级政府数据中心公司地址短文本按所属楼宇分类的场景
数据:单位地址数据(数据不规范,约6万个单位);楼宇名称和楼宇地址数据(楼宇地址也不规范,楼宇名称分1-N号楼或者ABC座,186个楼宇)目标:为公司找到所在楼宇建模:抽取出楼宇名称中核心词和楼宇地址中核心词,将这些词以或关系作为where查询条件组成一个sql,用这个sql进行初步筛选;将楼宇名称和楼宇地址的段文本混合作为分类文本,将楼宇id作为分类目标构造分类器,然后以单位地址为输入进行分类;将分类后结果通过规则做进一步过滤,比如如果有x号院x号楼则院号和楼号需要对应;经过粗筛/文本算法分类/结原创 2020-08-10 15:37:18 · 303 阅读 · 0 评论 -
用gensim短语发现功能增强jieba中文分词效果
import jiebaimport gensimmddesc = ['测试数据库','用户支付表','支付金额','支付用户']train_corpus = []for desc in mddesc:train_corpus.append("/".join(jieba.cut(desc)).split("/"))train_corpus.append("/".join(jieba.c...原创 2019-02-13 16:46:35 · 821 阅读 · 0 评论 -
Tensorflow Syntaxnet模型安装测试方法
#install dev envapt-get updateapt-get install build-essential vim -y#install jdk8apt-get install software-properties-common -y#need to confirmadd-apt-repository ppa:webupd8team/javaapt-get upda...原创 2017-03-13 11:21:30 · 2198 阅读 · 0 评论 -
Github上Seq2Seq_Chatbot_QA中文语料和DeepQA英文语料两个对话机器人测试
Seq2Seq_Chatbot_QA和DeepQA两个对话机器人测试代码:mkdir ~/qacd ~/qa-------中文Chatbot-------git clone https://github.com/qhduan/Seq2Seq_Chatbot_QA.gitgit clone https://github.com/rustch3n/dgk_lost_conv.gitcp d...原创 2017-08-07 17:17:59 · 10102 阅读 · 4 评论 -
stanford nlp库提供的nlp之外的分类、语义图、图最短路径功能
1. stanford nlp库提供的nlp之外的功能:classifier: 文本分类。LinearClassifier,LogisticClassifier,SVMLightClassifier和NaiveBayesClassifiersemgraph: 语法依赖图。SemanticGraph,backed by the jgrapht graph librarygraph: 支持原创 2017-06-01 09:56:59 · 949 阅读 · 0 评论 -
Question Answer(web-QA + KB-QA + social-QA) research in the world
qa in cmu language technology institute: http://www.lti.cs.cmu.edu/work -> http://www.lti.cs.cmu.edu/work/category/2714-> http://www.lti.cs.cmu.edu/projects/information-extraction-summarization-原创 2017-06-12 10:56:03 · 1541 阅读 · 0 评论 -
中文语料下Stanford CoreNLP开发环境配置和各组件使用例子
********开发环境和组件使用例子*************1. IntelliJ IDEA中建立maven工程。2. pom.xml内容:--------- xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://mav原创 2017-03-16 15:38:48 · 7226 阅读 · 0 评论 -
用nltk colocation功能抽取中文短语和专业词汇增加分词准确性
#用nltk+jieba发现连词和三连词。import jiebaimport nltkfrom nltk.collocations import *train_corpus = "测试数据库,用户支付表,支付金额,支付用户,测试数据库,用户支付表,支付金额,支付用户"bigram_measures = nltk.collocations.BigramAssocMeasures原创 2017-03-31 17:44:22 · 3202 阅读 · 0 评论 -
讯飞语音识别SDK试用
到讯飞开放平台上( http://www.xfyun.cn/?ch=bdtg )选择“语音听写”功能,创建应用。图中的Appid一般是调用api所需的认证key。(下载的SDK中样例工程MscDemo的代码中Version.java类中已经有Appid了,不用我们再设置)然后在http://www.xfyun.cn/index.php/sdk/dispatcher选择功能,平台和应用下原创 2017-03-24 10:26:33 · 3157 阅读 · 0 评论 -
信息抽取包OpenIE 4.x在Intellij IDEA中的开发环境配置
#install sbtcurl https://bintray.com/sbt/rpm/rpm | sudo tee /etc/yum.repos.d/bintray-sbt-rpm.repoyum install sbt -y#install dependencies for openie and assembly a jargit clone https://gith原创 2017-03-08 19:01:25 · 1745 阅读 · 0 评论 -
wordnet的中文支持项目open multilingual wordnet分析试用
主要关注中文的对应英文,一词多义,多词同义,词相似度功能。#下载open multilingual wordnet语料import nltknltk.download("wordnet")nltk.download("wordnet_ic")nltk.download('omw')from nltk.corpus import wordnet as wn#wor原创 2017-03-17 18:54:28 · 3172 阅读 · 1 评论