自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

技术札记

原创情感分析相关汇总

文章目录情感分析语音情感识别句子or文档级别情感分析情感词汇字典大连理工大学中文情感词汇本体中文金融情感词典金融社交媒体数据应用的市场情绪词典中文情感分析常用词典台湾大学NTUSD简体中文情感词典BosonNLPABSA细腻度情感分析相关比赛【千言情感分析】SKEP句子级情感分析相关博客或者论文中文情感分析 (Sentiment Analysis) 的难点在哪？现在做得比较好的有哪几家？文本挖掘在商品评论中的应用研究——以烟草评论为例Twitter数据挖掘及其可视化电子邮件情感分析机器人-stanford

2022-05-26 17:35:54 2564

原创语音合成TTS主要模型分析

语音合成TTS发展过程中模型对比分析

2022-03-13 15:55:24 6561

原创 kaldi_关于数据预处理

kaldi关于数据预处理基本数据四个预处理文件wav.scp 每条语音的 ID 及其存储路径wav_id(音频id)wav_path(文件路径)sen_1/home/kaldi/data/sen_1.wavsen_2/home/kaldi/data/sen_2.wavtext 每条语音的 ID 及其对应文本wav_id(音频id)text(文本)sen_1中国共产党成立100周年utt2spk 每条语音的 ID 及其说话

2021-10-30 11:29:33 879

原创开源向量数据库--milvus

Milvus 是一款开源的向量相似度搜索引擎，支持针对 TB 级向量的增删改操作和近实时查询，具有高度灵活、稳定可靠以及高速查询等特点。Milvus 集成了 Faiss、NMSLIB、Annoy 等广泛应用的向量索引库，提供了一整套简单直观的 API，让你可以针对不同场景选择不同的索引类型。此外，Milvus 还可以对标量数据进行过滤，进一步提高了召回率，增强了搜索的灵活性。特性异构计算优化了基于 GPU 搜索向量和建立索引的性能可以在单台通用服务器上完成对 TB 级数据的毫秒级搜索动态.

2021-04-11 16:39:18 2393

原创 Neo4J 介绍、安装以及使用(附带示例)

Neo4J 介绍与安装知识图谱由于其数据包含实体、属性、关系等，常见的关系型数据库诸如MySQL之类不能很好的体现数据的这些特点，因此知识图谱数据的存储一般是采用图数据库（Graph Databases）。而Neo4j是其中最为常见的图数据库。在Mac或者Linux中，安装好jdk后，直接解压下载好的Neo4J包，运行命令 bin/neo4j startwindows系统下载好neo4j和jdk 1.8.0后，输入以下命令启动后neo4j neo4j.bat consoleNe

2021-03-21 21:03:46 2530 1

原创 MAB多臂赌博机---汤普森采样算法

汤普森采样算法原理假设每个臂是否产生收益，决定于背后的一个概率分布，及产生收益的概率为p，每个臂对应的概率分布得出各自的随机数，最大的就是收益最高的根据每次收益情况调整对应的概率分布核心 (Beta)贝塔分布贝塔分布: 是一种连续性概率密度分布，由形状参数(a,b)表示，一般用于伯努利事件成功概率的概率分布，定义域在(0,1)之间伯努利试验:在同样的条件下重复地、相互独立地进行的一种随机试验并且只有两种可能结果：发生或者不发生分布特点：对于不同的形状参数 a,b分布很宽 a+b

2021-03-03 15:48:17 1312 1

原创拉格朗日乘法解决约束条件下的最优问题

拉格朗日乘数法寻找变量受一个或多个条件所限制的多元函数极值方法。将n个变量和k个约束的最优问题转换为n+k变量的方程组极值问题，变量没有约束。拉格朗日乘数：约束方法梯度的线性组合中各向量的系数(法向量的系数)用拉格朗日乘法解决约束条件下的最优问题二元类型目标函数：f(x,y) = x^2+4*y^2 -2*x+8y约束条件：x+2*y=7最优问题：在约束条件下找目标函数f(x,y)的最小值几何问题：目标函数为一个椭圆，约束条件为直线，最优问题在几何上表现为，椭圆经

2020-10-09 09:35:56 2733

原创 Python调用电脑麦克风录音

Python 调用电脑麦克风录音

2020-10-07 16:05:12 9123 2

原创强化学习-马尔克夫决策过程和贝尔曼方程

马尔科夫决策链 Markov Decision Process(MDP)a(finite) set of actions 动作空间 A(search，recharge，wait)a(finite) set of states 电池状态 S high lowa(finite) set of rewards 奖励 Rone-step dynamics of the environment 一步动态特性（动态特性函数p）a discount rate 折扣率伽马【0-1】越大对未来的奖励越.

2020-07-31 16:42:37 451

原创 Docker命令记录

查看已有容器docker images命令行模式进入该容器docker run -it ubuntu /bin/bash由镜像启动容器docker run -itd -p 5000:5000 -w /app/labproject ubuntu_defecte_class:base_line python3 app.py-p 容器内外端口映射主机：容器-P 容器内端口随机映射到主机-d 容器后台运行-v 主机文件夹映射到容器内进入启动的容器docker psdock.

2020-07-31 16:42:04 234

原创 JupyterNotebook调试spark

下载 spark下载 hadoop下载 winutils.exe 放在 hadoop_home/bin配置环境变量将spark /jars 下的 py4j-0.10.7.jar 解压到python环境Lib\site-packages下pip install pypiwin32启动sparkimport osimport sysspark_home = os.environ.get('SPARK_HOME', None)if not spark_home: rais.

2020-06-22 13:31:08 467

原创控制智能体学习21点游戏最佳策略

MC常量控制最优策略灰色:要牌绿色:停牌 MC常量控制有可用王牌状态动作价值函数 MC常量控制无可用王牌状态动作价值函数

2020-06-17 09:44:01 1051

原创正则化的线性回归岭回归、Lasso回归

文章目录概述岭回归效果Lasso回归效果线性回归效果概述正则化的线性回归岭回归就是正则化的线性回归，线性回归容易出现过拟合，正则化是防止过拟合的常用方法。换句话说是修正后的最小二乘法。线性回归的误差函数f(w) = \frac{1}{2}\sum_{i=1}^{n}{(y-y`)^2}优化的误差函数是原来线性回归的均方误差上加上L2范数的惩罚项(修正项)，惩罚模型的复杂程度。f(w) = \frac{1}{2}\sum_{i=1}^{n}{(y-y`)^2}+\frac{1}{2}a*\

2020-05-27 20:04:20 808

原创 RoBERTa

RoBERTa模型是在RoBERTa中提出的：一种经过严格优化的BERT预训练方法，由Yinhan Liu，Myle Ott，Naman Goyal，Dujingfei，Mandar Joshi，Danqi Chen，Omer Levy，Mike Lewis，Luke Zettlemoyer，Veselin Stoyanov提出。它基于2018年发布的Google BERT模型。它建立在BER...

2020-04-25 22:16:26 3236

原创 huggingface tokenizers

专注 NLP 的初创团队抱抱脸（hugging face）发布帮助自然语言处理过程中，更快的词语切分（tokenization）工具：Tokenizers —— 只要 20 秒就能编码 1GB 文本。功能多样：适用于 BPE / byte-level-BPE / WordPiece / SentencePiece 各种 NLP 处理模型可以完成所有的预处理：截断（Truncate）、...

2020-04-21 19:48:09 3475

原创开源语音数据集

开源语音数据集英文数据集：LibriSpeech ASR corpus：该数据集是包含大约1000小时的英语语音的大型语料库。这些数据来自LibriVox项目的有声读物。它已被分割并正确对齐，如果你正在寻找一个起点，请查看已准备好的声学模型，这些模型在kaldi-asr.org和语言模型上进行了训练，适合评估。https://www.openslr.org/12Mini Libri...

2020-04-21 19:46:45 1262

原创推导梯度下降

2020-04-02 22:10:11 204

原创隐马尔科夫和端到端网络

@TOC欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：全新的界面设计，将会带来全...

2020-04-02 22:04:17 247

原创词嵌入

概要词嵌入是单词的一种数值化表示方式，一般情况下会将一个单词映射到一个高维的向量中（词向量）来代表这个单词。例如我们将：机器学习’表示为 [1,2,3]词向量可以用余弦相似度来计算单词之间的距离余弦相似度词嵌入词嵌入实际上是一种将各个单词在预定的向量空间中表示为实值向量的一类技术。每个单词被映射成一个向量（初始随机化），并且这个向量可以通过神经网络的方式来学习更新。因此这项技术基...

2020-03-22 13:47:02 541

原创目标检测到实例分割 R-CNN 、Fast-CNN、Mask R-CNN

R-CNNFast R-CNN和R-CNN不同的是一个图片只执行一次神经网络，在卷积后的特征图上，选取识别框提取roi特征进行分类Mask R-CNN在Fast R-CNN的基础上新增了像素级别的提取功能 ,和 Fast RCNN 区别在于，mask RCNN 用RoIAlign的方法来取代ROI pooling,保留大致的空间位置信息检测效果如下图参考文章...

2020-03-22 13:06:05 494

原创挖掘导演最爱用的演员关联规则-FPGrowph

概要FP的全称是Frequent Pattern，在算法中使用了一种称为频繁模式树（Frequent Pattern Tree）的数据结构。FP-tree是一种特殊的前缀树，由频繁项头表和项前缀树构成。FP-Growth算法基于以上的结构加快整个挖掘过程。ApriorApriori算法是常用的用于挖掘出数据关联规则的算法，它用来找出数据值中频繁出现的数据集合，找出这些集合的模式有助于我们...

2020-03-08 09:12:24 1200

原创卷积原理

卷积原理池化-特征降维最大池化层平均池化层1X1卷积池化是对每个feature map的卷积，没有对通道的交互，1X1卷积对通道进行线性组合对于单通道的feature map和单个卷积核之间的卷积来说，题主的理解是对的，CNN里的卷积大都是多通道的feature map和多通道的卷积核之间的操作（输入的多通道的feature map和一组卷积核做卷积求和得到一个输出...

2020-03-03 22:59:10 547

原创 LSTM相关资料

先附上维基百科介绍长短期记忆（英语：Long Short-Term Memory，LSTM）是一种时间循环神经网络（RNN）[1]，论文首次发表于1997年。由于独特的设计结构，LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。LSTM的表现通常比时间循环神经网络及隐马尔科夫模型（HMM）更好，比如用在不分段连续手写识别上[2]。2009年，用LSTM构建的人工神经网络模型赢得...

2020-03-03 07:18:26 673

转载生成式对抗网络GAN相关资料

关于GAN的论文：https://github.com/zhangqianhui/AdversarialNetsPapersDeepLearning书中的有关章节：http://www.deeplearningbook.org/contents/generative_models.htmlIan Goodfellow关于GAN的讲座：https://channel9.msdn.co...

2020-03-02 23:13:02 274

转载强化学习简介

强化学习框架下交易单个股票强化学习定义受行为心理学的启发（如 Sutton, 1984），研究者为这一问题提出了一种形式框架，即强化学习（RL）。其主要思想是人工智能体（agent）可以通过与其环境（environment）进行交互来学习，这类似于生物智能体。使用收集到的经历（experience），人工智能体可以根据某种形式的累积奖励（reward）来优化某些目标（objective）。...

2020-03-02 22:53:48 490

原创 OpenCV CV2 练习

https://docs.opencv.org/trunk/d7/d8b/tutorial_py_face_detection.htmlhttps://github.com/opencv/opencv/tree/master/dataimport cv2 import matplotlib.pyplot as plt ...

2020-03-02 20:53:51 263

转载迁移学习相关资料

转自王晋东的博客迁移学习简介迁移学习(transfer learning)通俗来讲，就是运用已有的知识来学习新的知识，核心是找到已有知识和新知识之间的相似性，用成语来说就是举一反三。由于直接对目标域从头开始学习成本太高，我们故而转向运用已有的相关知识来辅助尽快地学习新知识。比如，已经会下中国象棋，就可以类比着来学习国际象棋；已经会编写Java程序，就可以类比着来学习C#；已经学会英语，就可以类...

2020-03-02 20:35:31 2079

原创信息熵和信息增益

信息熵对信息的量化度量，任何信息都存在冗余，把信息中排除了冗余后的平均信息量称为信息熵信息熵是用来衡量事务不确定性，信息熵越大，事物越具不确定性，事务越复杂发生概率越大的事物携带的信息熵越低，因为是大概率发生的事物，并没有消除不确定性信息增益表示得知特征x的信息使得特征y的信息不确定性减少的程度，信息增益越大，表示特征x越重要计算实例样本个数+4-...

2020-01-13 11:36:57 474

原创葡萄酒数据分析

引入包，查看数据import pandas as pdimport matplotlib.pyplot as plt# 支持中文plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号read_df = pd.rea...

2020-01-09 20:44:40 3703

原创 MongoDB存储引擎

1.那几种存储引擎 WiredTiger MMAPv1 In-Memory2.WiredTiger优势最大化使用缓存：文件系统缓存 WiredTiger内部缓存高吞吐量：写时复制多核的可扩展性3.WiredTiger特性文档级别的并发控制 MVCC 多版本并发控制机制快照与检查点创建Checkp...

2019-11-04 23:13:24 1007 1

原创时间序列预测ARIMR（Spark scala,Python）

自回归滑动平均差分模型AR 自回归MA 滑动平均I 差分法AIC 准则赤池消息准则，衡量统计模型拟合好坏的标准，值越小越拟合最小信息量准则（An Information Criterion）指导思想：似然函数值越大越好未知参数的个数越少越好ARMA模型要求数据平稳，当数据不平稳时，需要差分。如果d阶差分后，序列平稳，叫做d阶单整序列如果差分很多次，还.........

2019-11-04 10:47:27 4925 3

原创没有理所应当，感恩

突然想写点什么- 感谢那些生活中的感动在难得的国庆长假期间，和两三好友报团去藏区龙头滩来了场高原徒步。稀薄的空气仿佛一下子激活了我的肺，呼吸从来没有如此密集，或许出于死亡的恐惧，所见山峰无不威严、庙宇无不神秘。淳朴的村民在清晨念着听不懂的经文，呆呆的牛在草场上望着山顶，雾气翻腾在山涧，呼的串上了天，没了踪影，一切神识在这空灵环境下仿佛得到洗涤或许是自由惯了，下山的时候没按向导的路线走，回到寄...

2019-11-02 22:52:50 306

原创 Spring Data Mongodb事务

mongo4.2支持分片集群事务MongoTransactionManagerSpringboot 开启MongoDB事务@EnableTransactionManagementpublic class SpringBootApplication{ public static void main(String[] args) { SpringAppl...

2019-11-02 21:59:01 833 1

原创 MongoDB基本操作

db.createCollection('for_test')db.getCollection('for_test').save({'_id':3,'results':[75,88]})db.getCollection('for_test').find({'results':{'$elemMatch':{'$gte':80,'$lt':85}}})db.getCollection('f...

2019-11-02 21:54:44 419

原创 MongoDB导入导出

导出 mongoexport --port 30000 -d itpsdsc -c sys_menu -o /home/menu1.json #! /bin/bashmongoexport --port $1 -d $2 -c $3 -o $4 >> $3_export.log 2>&1导出命令sh sys_menu_export.sh 30000...

2019-11-02 21:53:27 205

原创 Skyworking原理Javaagent

Instrumentation:classFileTransformer: 提供自定义字节码转换方法，transfer方法在类被加载重定义的时候被调用JavaAgent获取所有已经加载过的类获取所有已经初始化的类(执行过clinit)获取某个对象大小将某个jar加入到bootstrap classpath作为高优先级被bootstrapClassLoader加载将某个jar加...

2019-07-28 09:02:30 1951

原创 Pandas 数据清洗

处理空值删除替换填充重复值异常值

2019-07-10 22:34:36 324

原创 Oauth2+JWT 加密token

JWT 对称加密JWT将相关信息放在令牌里jwt全称 JSON Web Token。这个实现方式不用管如何进行存储（内存或磁盘），因为它可以把相关信息数据编码存放在令牌里。JwtTokenStore 不会保存任何数据，但是它在转换令牌值以及授权信息方面与 DefaultTokenServices 所扮演的角色是一样的。安全性OAuth2提供了JwtAccessTokenCo.........

2019-07-08 19:26:32 9566 3

原创 Docker基本命令

docker run ubuntu:15.10 /bin/echo "Hello world"docker run -> 创建新容器实例的指令ubuntu:15.10 -> 镜像名字，本机不存在便在 dockerhub上查找下载/bin/echo "Hello world" -> 动作，在容器内执行的命令docker run 后面带的参数 -i 允许对容器...

2019-06-23 15:15:12 155

原创第一个Flink程序词频统计

maven创建 Flink 应用程序，通过端口获取实时输入的字符串，利用Flink统计单词频率并打印出来public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironme...

2019-06-21 12:38:45 1050

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除