自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据AI笔记

一只认真写博客的菜鸟

  • 博客(109)
  • 资源 (5)
  • 收藏
  • 关注

原创 端到端语音识别系统发展及现状 | LAS、RNN-T、NT、MochA

文章目录1.传统 ASR2.端到端 ASR3.端到端ASR的发展历程3.1 CTC3.2 基于CTC的端到端ASR3.3 CTC的缺点4.基于attentiion的encoder-decoder模型5. Online 模型介绍(RNN-T, NT, MoChA)5.1 模型配置5.2 数据5.3 结果5.4 组合方式5.5 进一步的提升5.5.1 结构上的改进Wordpiece Model多头attention5.5.2 优化方式的改进最小字错率(MWER)预定采样同步异步训练标签平滑5.5.3 外部语言模

2020-07-22 17:51:37 1088 1

原创 实时数仓和离线数仓

文章目录1.什么是大数据平台?2.数仓和数据库的区别3.大数据技术栈4.数仓的分层5. 离线数仓架构和实时数仓架构离线数仓架构实时数仓架构对比6.数仓架构发展1.什么是大数据平台?数据日益增多部署hadoop集群采集录入数据构建数据仓库数据统一计算任务统一调度数据统一查询用户统一使用2.数仓和数据库的区别项目HiveRDBMS查询语言HQLSQL数据存储HDFS本地磁盘索引无有执行MapReduceExecutor执行延时高低数

2020-05-25 21:13:14 1987 1

原创 各种聚类算法(原理+代码+对比分析)最全总结

序言还是要持续总结,持续积累。一、聚类的目标使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。二、聚类算法分类1.基于划分给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K<N。特点:计算量大。很适合发现中小规模的数据库中小规模的数据库中的球状簇。算法:K-MEANS算法、K-MEDOIDS算法、CLARANS算法2....

2020-01-07 13:29:13 118072 34

原创 基于bert的中文实体关系识别(实体关系抽取)项目开源

在清华大学开源的OpenNRE项目基础上实现中文实体关系识别github项目地址,点我文章目录一、中文关系抽取训练结果测试结果二、使用前准备三、注意事项一、中文关系抽取使用哈工大,BERT-wwm,中文bert,在20w中文人物关系数据上的准确率达到0.97训练结果=== Epoch 0 train ===100%|███████████████████████████████...

2019-12-11 17:23:33 6269 1

原创 文本分类方向的一点探索 | 解读自然语言处理技术之文本向量和词向量

我们身边每天所产生的信息量正在迅猛增加,而这些信息基本都是非结构化的海量文本。 人类可以轻松处理与感知非结构化文本,但机器显然很难理解。 不用说,这些文本定然是信息和知识的一个宝贵来源。因此,设计出能有效处理各类应用中非结构化文本的方法就显得便迫在眉睫。文本挖掘这么厉害,他到底能为企业带来什么价值呢,下面我举一个实际的例子来说明。 大家猜一猜这幅图的业务背景是什么?它能说明什么问...

2018-05-30 23:12:12 2014 4

原创 Python 中文 文本分析 实战:jieba分词+自定义词典补充+停用词词库补充+词频统计

最近项目需要,实现文本的词频分析,折腾了几天才完成任务,有点成就感,最后整理总结一下这部分的内容,希望更多同僚受益。使用方法环境:Python3.6安装结巴:pip install jiaba下载停用词词典哈工大停用词词典构建补充词典userdict,后文详解运行文章最后面的完整代码先来认识jieba参考简介“结巴”中文分词:做最好的Python中...

2018-04-28 13:47:31 26674 17

原创 TensorFlow 技术框架解析 | 图文理解深度学习技术实现

最近项目需要,客户想上tensorflow,想把项目做的高大上一点,向我咨询tensorflow的相关问题和部署方案,我要假装自己很懂TF,之前一直在跟进tensorflow的技术进展,最近又做了很多功课,整理出以下内容,用这个ppt给客户讲解并加上TF的demo和tensorboard的可视化演示,客户十分满意,说这就是他们想看到的。先来认识一下TF的价值:TensorFlow...

2018-02-08 11:34:03 13595 2

原创 手把手教你制作 中英文 词云 | python demo

以前做词云的时候网上看的python做词云的坑都很多,耗了很多时间才高清楚wordcloud制作词云的精髓和脉络,整理如下。1.词云生成wordcloud包的基本用法class wordcloud.WordCloud(font_path=None, width=400, height=200, margin=2, ranks_only=None, prefer_hori...

2018-02-08 11:13:07 8664 5

原创 人脸识别 + 语音识别实现智能电话会议 | python demo

把最近的调研demo整理出来,实现智能电话会议,我提供两个核心的web服务,一个是人脸识别实现身份确认,一个是语音识别实现会议内容实时转写。预备知识python 写一个静态服务(实战)python3.6 编程技巧总结opencv实现猫脸识别一、实现流程二、身份确认-人脸识别技术框架这是一个轻量级的人脸识别服务上传一张照片,它会返回...

2018-02-07 10:20:45 3947 4

原创 pytorch环境搭建| cuda版本、pytorch版本等问题解决

文章目录1.选择适合自己的pytorch进行安装2.pytorch代码版本升级(1)报错:IndexError: invalid index of a 0-dim tensor. Use tensor.item() to convert a 0-dim tensor to a Python(2)报错:RuntimeError: view size is not compatible with input tensor‘s size and stride(3) 报错:TypeError: can't conv

2020-12-03 17:08:13 8

转载 python | request文件下载 | 小文件 | 大文件

小文件下载import requestsurl = "http://www.test.com/xxxxx/test.jpg"path = r"c:\test.jpg"req = requests.get(url)with open(path, "wb") as f: f.write(req.content)大文件下载(断点续传)import sysimport requestsimport osclass Downloader(object): def __in

2020-11-06 10:26:04 56

原创 python 分布式 进程 | 爬虫

文章目录分布式进程服务进程创建过程代码任务进程创建代码执行结果分布式进程分布式进程是指的是将Process进程分布到多台机器上,充分利用多台机器的性能完成复杂的任务。在Thread和Process中,应当优选Process,因为Process更稳定,而且,Process可以分布到多台机器上,而Thread最多只能分布到同一台机器的多个CPU上。Python的multiprocessing模块不但支持多进程,其中managers子模块还支持把多进程分布到多台机器上。一个服务进程可以作为调度者,将任务分布

2020-08-02 13:15:12 120 1

原创 初识云计算,什么是云计算,云计算的分类

文章目录什么是云计算?云计算的分类公有云私有云混合云(专属云)DevOpsDevOps完整研发周期什么是云计算?虚拟化是基础(计算、存储、网络等)产品服务化(Laas、Paas、Saas、Xaas)弹性伸缩,没有边界云计算的分类公有云(AWS,阿里云,Azure等)私有云(Vmware等)混合云(Azure,Rackspace)公有云云服务提供商对基础设施维护多租户Pay For Use私有云自己维护云基础设施单租户或狭义上的多租户Pay For Cloud

2020-07-11 13:07:31 133

原创 整理一下神经网络结构图

RNN普通RNN有不能处理长依赖的问题LSTM循环单元有着一种不同的结构。里面不再是只有单一的神经网络层,里面有四个层,并且他们都以非常简单的方式起作用。GRU它组合了遗忘门和输入门到一个单独的“更新门”中。它也合并了cell state和hidden state,并且做了一些其他的改变。...

2020-07-09 21:15:08 238

原创 Spark SQL和 presto 访问数据源的对比分析

直观感受是使用Spark SQL比通过 presto 写SQL的查询速度更快开发python程序访问Presto可以借助pyhive工具文章目录Spark SQL是什么?和Hive的不同三种数据结构Dataframe和Dataset是什么Datafram比RDD的优势Dataset比Dataframe的优势presto是什么优点数据模型架构数据库架构设计Spark SQL是什么?Sp...

2020-04-30 16:18:08 583 1

原创 tornado, python的高并发微服务,从入门到部署上线

文章目录1.介绍2.安装和使用3.Tornado web 主要模块4.三种启动方式第一种启动方式:单进程第二种启动方式:多进程第三种启动方式:多进程5.编写高并发服务1.介绍使用python编写的网络框架和高性能的异步网络库使用大量连接、长轮询、websockets应用优势:微服务、高性能、异步支持缺点:轮子少不像Django、Flask等框架有大量插件支持;缺少最佳实践,使用的公司不多...

2020-03-31 10:06:18 1069 1

原创 财经知识 | 金融小白学习之旅

前段时间美股接连熔断三次,微信、抖音随处能看到各种科普文,对于很多名次似懂非懂的,最近看了几本很值得读的书才搞明白一些之前听起来不明觉厉的名次,整理一下,便于理解现在的世界格局。

2020-03-24 10:44:33 286

原创 对python代码进行加速处理

有两种加快python速度的方式文章目录1.Psyco(1) 简介(2) 安装(3) 使用2.pyrex(1) 两个好处(2) 加速的例子1.Psyco(1) 简介Pysyco简介:http://psyco.sourceforge.net/introduction.html,逐句翻译,简而言之:更快地运行现有的Python软件,而无需更改源代码。可以将Psyco视为一种即时(JIT)...

2020-01-15 09:25:30 554

原创 将c、c++代码包装成python代码

如果要在Python中包装现有的C或C ++功能,有很多选择,这里只记录最值得推荐的方式,SWIG被Subversion, wxPython, Xapian等项目使用。值得一提的是,Google也使用SWIG。用SWIG包装Python代码SWIG本质上是一种宏语言,可以植入C代码,并且可以为你选择的语言(python)生成包装器代码。SWIG包装“ hello”程序需要三件事。第一步,...

2020-01-15 09:25:14 751

原创 编写python风格的代码(1)| 遍历、基本数据类型、列表解析

摘自提姆·彼得斯(Tim Peters)的《 Python的禅宗》:Beautiful is better than ugly.Explicit is better than implicit.Simple is better than complex.Readability counts.美丽胜于丑陋。显式胜于隐式。简单胜于复杂。可读性很重要。文章目录1.遍历(1) 遍历一个...

2020-01-13 19:03:59 140

原创 markdown编写常用html标签,csdn右侧帮助文档没有提示的用法

1.图片大小调整<img src="图片的url" width="60%" >比如<img src="https://img-blog.csdnimg.cn/20200109211721688.jpeg?" width="60%" > 显示效果 2.字体颜色调整<font face="字体" color=颜色>文本内容</font&g...

2020-01-09 21:22:21 93

原创 从0开始玩一玩xgboost |官网demo | 可选目标函数 | 各种评价指标 | 特征重要度可视化

背景结构化数据的分类问题都可以用xgboost来解决;nlp的分类问题使用bert来解决,nlp的所有问题都可以抽象成分类问题,也就是nlp问题都可以用bert来解决,包括命名实体识别、实体关系抽取、实体链接(百度叫实体链指)等。有兴趣可以看这个基于bert的实体关系抽取,点我这里说说xgboost怎么玩。官网博客,点我1.安装mac安装,我直接:pip install xgboos...

2020-01-09 20:52:44 268

原创 使用memory_profiler工具对python工程做内存分析

memory_profiler使用memory_profiler主要用来监控python工程占用内存大小安装pip install -U memory_profiler用法from memory_profiler import profile在需要分析的函数上面添加注释@profile(precision=4,stream=open('memory_profiler.log','...

2020-01-07 14:05:51 424

原创 不同GPU上,深度学习环境参考

分别列出了TITAN X、Tesla V100、GeForce RTX 2080 ti 三种不同型号GPU上的环境整理。

2020-01-07 13:57:37 243

原创 Mini CFA 考试练习题 Economics of International Trade

国际经济学部分55道题目第一次刷题,答对率67%。Q. The country of Australia classifies products departing from the port of Melbourne to other countries as:exports.imports.net exports.SolutionA is correct. Exports ar...

2020-01-04 15:49:35 785 1

原创 Mini CFA 考试练习题 Macroeconomics

宏观经济学部分,第一次刷题目,62道题目答对率是67%,做的过程中感觉这部分内容的题目相比微观经济学容易理解很多。Q. Gross domestic product (GDP) is best defined as the total:output of a country.output of a country per person.changes in real output of...

2020-01-03 12:45:29 603

原创 Mini CFA 考试练习题 Microeconomics

微观经济学部分一共61道题目,第一次刷题正确率66%。Q. Economics is the study of:an economy as a whole.choices in the presence of limited or scarce resources.how individuals and companies make decisions to allocate limi...

2020-01-02 19:22:12 795

原创 Mini CFA 考试练习题 Ethics and Investment Professionalism

伦理道德与投资职业水准Q. Which of the following most likely represents potential violation of ethical principles due to a conflict of interest?An analyst writes a research report about a company for which he ...

2019-12-27 16:12:46 969

原创 保险知识整理

文章目录术语理解需要注意的坑如何买保险术语理解1、什么是保险人?所谓保险人,又称承保人,是指与投保人订立保险合同,并承担赔偿或者给付保险金责任的保险公司2、什么是被保险人?与投保人有什么不同?所谓被保险人是指其财产或者人身受保险合同保障,享有保险金请求权的人,投保人可以为被保险人。3、什么是投保人?所谓投保人,又称要保人,是指与保险人订立保险合同,并按照保险合同负有支付保险费...

2019-12-23 12:13:21 180

原创 语音识别数据增强方法(google2019年7月论文)

论文:https://arxiv.org/pdf/1904.08779.pdf要点:我们构建了一个直接作用于对数梅尔频谱图的增强策略,以帮助网络学习有用的功能。 出于以下目的的动机:这些功能应对时间方向的变形,频率信息的部分丢失以及小部分语音片段具有较强的鲁棒性,因此,我们选择了以下变形来制定策略:1.使用tensorflow的sparse_image_warp函数进行时间扭曲。给定具有τ个...

2019-12-21 14:45:00 1349 2

原创 n-gram语言模型的生成过程及原理

文章目录一、简单说明二、执行过程1.拿到文本2.分词处理 text3.生成n-gram统计文件4.生成语言模型5.转为二进制文件6.生成trie文件7.结果分析三、生成原理1.增加``和``标记符,表示句子的开头和结尾。2.映射ID3.Counting4.Adjusting5.Discounting。6.Normalization7.Interpolation一、简单说明常用的N-gram训练...

2019-12-11 16:56:49 1293

原创 参加王臻博士 智能投顾线下沙龙 笔记

京东金融数据脱库了 开放数据银行 万德的数据错误率太高最大的门槛是:对行业的理解+数学基础 现在的壁垒是有行业经验的数学不好,算法强的很难结合实际需求给出行业解决方案数学基础的要求:修完大一上学期的数学课程不能赚钱的智能投顾都是耍牛氓区块链在国内不看好 ,交易形式不被认可 ,不能开发票。评分卡靠经验十九大后监管上来了中国人的还钱意识强,亲情关系紧密蚂蚁金服 征...

2019-11-28 16:19:05 453

翻译 beam search解码原理(斯坦福 2014 论文解读)

论文:https://arxiv.org/pdf/1408.2873.pdf题目:First-Pass Large Vocabulary Continuous Speech Recognition using Bi-Directional Recurrent DNNs摘要我们提出一种仅使用神经网络和语言模型来完成大词汇量连续语音识别的第一步的方法。 深度神经网络声学模型现在在基于HMM的语音...

2019-11-16 16:35:17 927 2

翻译 语音切割,个人VAD (google 2019 论文翻译)

论文:https://arxiv.org/pdf/1908.04284.pdf题目:PERSONAL VAD: SPEAKER-CONDITIONED VOICE ACTIVITY DETECTION摘要在本文中,我们提出了“个人VAD”系统,该系统可以在帧级别检测目标说话者的语音活动。 该系统可用于对流语音识别系统的输入进行门控,使其仅为目标用户触发,这有助于降低计算成本和电池消耗。 我们...

2019-11-16 16:34:51 1209

翻译 医疗对话场景的语音识别 |垂直领域(google 2018 论文解读)

论文:https://arxiv.org/pdf/1711.07274.pdf题目:Speech recognition for medical conversations摘要在本文中,我们记录了我们在开发用于医学转录的语音识别方面的经验-一种自动转录医患对话的系统。为了实现这一目标,我们沿着两种不同的方法论体系构建了一个系统-基于连接主义时间分类(CTC)音素的模型和基于听众和咒语(LAS...

2019-11-15 12:18:06 599

翻译 deepspeech 1 (百度 2014 论文解读)

论文:https://arxiv.org/pdf/1412.5567.pdf题目:Deep Speech: Scaling up end-to-end speech recognition摘要我们提出了使用端到端深度学习开发的最先进的语音识别系统。我们的体系结构比传统的语音系统要简单得多,传统的语音系统依靠费力地设计的处理管道。当在嘈杂的环境中使用时,这些传统系统的性能也往往很差。相反,我们...

2019-11-15 12:16:14 757

翻译 deepspeech 2 (百度 2016 论文解读 )

论文:http://proceedings.mlr.press/v48/amodei16.pdf题目:Deep Speech 2 : End-to-End Speech Recognition in English and Mandarin摘要我们表明,可以使用端到端的深度学习方法来识别英语或普通话(两种截然不同的语言)。 由于它用神经网络代替了人工工程组件的整个流水线,因此端到端学习使我们...

2019-11-15 12:15:11 1435

原创 python协程(迭代器、生成器、协程之间的关系)

背景啃了《流畅的python》一书里面讲协程的章节,对协程的概念还是一知半解,大概知道协程的几个要点:一个线程有预激协程yield返回值等待结果判断出我研究的代码是协程,但是对于迭代器、生成器、协程的概念还是含混不清。正如下面大牛讲的,关于python协程的文档真不多,python2的更是不好找。如果python书籍有一定的指导作用,那么(协程就是)文档最匮乏、最鲜为人知的p...

2019-11-15 12:14:04 73

原创 模型训练部署过程中的报错处理

文章目录Allocation of X exceeds 10% of system memory 解决方式wget 下载文件报错:connection reset by peer报错:ERROR (theano.sandbox.cuda): Failed to compile cuda_ndarray.cu: libcublas.so.8.0: cannot open shared object ...

2019-11-15 12:13:36 1714 1

原创 cuda安装、切换、查看

新机器上装了最新的cuda 10.1,但是我们的语音转写工程依赖cuda 8.0,需要安装8.0版本。一、安装1.cuda版本选择:https://developer.nvidia.com/cuda-toolkit-archive,我选择8.0版本。2.选择平台描述,以上是我的选择查看机器信息,使用以下命令,选择合适的选项:cat /proc/versioncat /etc/redh...

2019-11-15 12:12:55 415

哈工大停用词词典

最全的停用词词典,根据网上现有全部资源,对所谓“哈工大停用词词库”、“四川大学机器学习智能实验室停用词库”、百度停用词表“等等各种停用词表,整理去重在提取中文词(而不是大量英文词和中文标点符号)出了一个比较全面的词表出来

2018-04-28

图计算、复杂网络、TigerGraph产品用例(TigerGraph 用例介绍 Rick Wu)

TigerGraph 用例介绍,行业案例分析。反欺诈、反洗钱、供应链等(TigerGraph 用例介绍 Rick Wu)

2018-03-07

区块链 分析报告

在互联网时代,在金融技术发展日新月异的时代,在金融边缘创新 不断向中心地带侵蚀并不断融入其中的新金融时代,在传统金融不断信 息化、网络化、数字化时代,金融已经远远突破了资金融通的传统内 涵,金融技术已经将金融信息与金融科技高度融合,技术成为驱动金融 发展的底层力量,成为一个大趋势。在互联网时代,驱动金融发展的金 融科技已经由移动互联网、大数据、云计算等应用层面,进一步转向了 区块链等底层技术创新。区块链已成为金融科技的底层技术。

2018-03-07

音频转化大师

实现音频格式的转换,例如可以设置音频格式,采样率等。

2018-03-01

软件需求分析-用例分析

在介始用例方法之前,我们首先来看一下传统的需求表述方式-"软件需求规约"(Software Requirement Specification)。传统的软件需求规约基本上采用的是功能分解的方式来描述系统功能,在这种表述方式中,系统功能被分解到各个系统功能模块中,我们通过描述细分的系统模块的功能来达到描述整个系统功能的目的。

2017-12-22

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除