自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 问答 (1)
  • 收藏
  • 关注

原创 低延时系统设计+高并发方案

交易系统下单,经过网络到达交易所撮合主机,中间经过多个网络设备、交换机、路由器和防火墙等,网络存在延迟。延迟:计算机接收到刺激,到进行响应的时间间隔。(1)磁盘访问,导致延迟:内存数据库、或者固态存储SSD来降低IO延迟。(3)数据计算,导致延迟:FPGA, GPU等技术来加速数据计算过程。(2)进程间通信,导致延迟:采用RDMA降低进程间通信成本。1.平均延时(一个点,到另一个点之间的平均时间),越低越好。2.延迟抖动(每次实际延迟,和平均延迟之间的偏差)3.吞吐量:低延迟下,尽可能高的吞吐量。

2023-08-29 12:24:10 480

原创 设计模式-面试常问

这个主题对象在状态变化时,会通知所有的观察者对象,使他们能够自动更新自己,核心在于被观察者中维护一个观察者的链表,如果被观察者对象有变化就会遍历这个链表通知观察者。动态的给对象添加新功能,核心:被装饰者(基类)、装饰者接口、用来装饰的具体类。优点:线程安全,多个线程想要加载类时,只有一个线程可以加载,其它线程要等待。(1)饿汉模式:对象放在类成员变量中,类加载时,就可以初始化实例。把对象的创建统一管理,屏蔽创建类的复杂过程的一种设计方法。保证系统中,一个类,只有一个实例,并且提供对外访问。

2023-08-15 17:49:14 2481

原创 计算机网络面试总结

多路复用。。多个TCP连接,复用指复用一个或少量线程,很多网络I/O复用一个或少量的线程来处理这些连接。都是异步的事件驱动的网络模型,—————TCP 流量控制 和 拥塞控制1.流量控制防止发送数据过快 ,接收方来不及接收。(发送方和接收方速度不相等,接收方来不及处理的数据放在缓冲区,缓存区满的时候,会丢掉一部分包, 因此需要控制发送方的发送速率)流量控制方法:接收方给发送方发送确认报文时,带上win的大小(缓存区剩余空间大小,接收方窗口大小,单位是字节)发送方收到之后,便会调整自己的发送

2021-11-01 23:25:27 1360

原创 C++数据结构算法

1.vector底层是数组,连续内存空间,当内存不够时重新申请2倍的空间,原来数据复制过去,原空间清空2.map multimapSTL的关联容器,map不允许key重复,multimap允许key重复。(key- value)内部元素有序,红黑树可以自动排序(以key为序排列)底层原理是使用了 红黑树,O(logN)的查找 插入 删除的速度。3.unordered_map 和 unordered_multimap和2中两个对外接口基本一致,底层原理不同,key无序,底层实现为 hash t

2021-10-25 16:51:59 621

原创 redis mysql nginx kafka等中间件

redis:内存中的数据结构存储系统,可以用作数据库、缓存、消息中间件。k-v字典存储系统,跨平台的非关系型数据库。支持网络、基于内存、分布式、可选持久化。LRU驱动事件,事务,不同级别的磁盘持久化。redis哨兵(sentinel), 自动分区。redis发布(publish)-订阅(subscribe), 一种消息通信模式,发送者(pub)发布消息,订阅者(sub)接收消息.新消息通过PUBLISH命令发送到频道channel中时,这个消息就会被发送给订阅它的所有客户端。redis s

2021-10-20 22:56:54 2154 1

原创 C++面试总结

1.C/C++中的内存内存分为5个区:(1)堆:堆(heap)是C语言和操作系统里的术语概念,操作系统维护的一块动态分配内存,比如malloc和free,就是对堆内存的动态申请和释放。(生存周期由程序控制。。主动创建。。属于动态内存分配。。)(–动态内存分配:按需分配,充分利用内存空间,及时释放,在程序运行时完成,分配释放要占用cpu资源,要用到指针和引用,)-----操作不当,会造成内存泄漏(memory leak, 程序未能释放掉不再使用的内存。失去对该段内存的控制,造成内存浪费。)---

2021-10-19 21:08:37 197

原创 ElasticSearch学习笔记+华为搜索项目

查询相关query和filter的区别filter是直接过滤掉,没有分数;(都是结构化数据)(查询上下文)query会涉及匹配相似度打分,_score说明文档匹配度,(过滤上下文)term直接去查倒排索引,效率最高。...

2021-10-07 15:12:26 795

原创 树、图、队列知识总结

队列队列、堆、栈,都是运算受限的线性表。。线性表 , 先进先出、后进后出, 一端插入、一端删除。(FIFO)顺序队列,链式队列,循环队列。。优先队列:找出键值最大(优先级最高)的元素,取出该元素,动态维护。(总是处理优先级最高的任务。。)(只需要做的操作, 删除优先级最高的任务,插入任务。。)树树的基本操作:构建树、 树的遍历、插入某节点、查找某节点、删除某节点。二叉树。。(最常用的树结构)1.理想平衡二叉树,(常用!!!—) (堆结构,本质是完全二叉树,叶子节点的位置有规律,适合排序

2021-10-04 23:34:39 220

原创 搜索相关知识总结

背景对于规模较大的团队,都会开发自己的搜索引擎,加入各种定制需求、方便优化;对于规模较小的项目或者创业团队,一般都会用一些开源的轮子,比如ElasticSearch、Lucene。(个人感觉,搜索、推荐、广告算法,三者是商业化时代必不可少的领域,对于创造商业价值具有强有力的推动作用。也是我比较喜欢的想做的领域,通过从事该领域,可以深入了解用户行为习惯,了解客户需求,对于业务需求,可以理解的很透彻。也希望自己可以从事该领域,算是找到自己喜欢感兴趣的方向,希望可以做下去的。。先从自学开始。。。嘻嘻)并且,

2021-01-08 22:04:33 602

原创 linux,操作系统开发相关知识总结

操作系统相关进程间通信的方式进程, 线程的生命周期。网络相关七层网络模型,tcp, udp。。。

2021-01-04 23:49:53 765

原创 面试经验总结

面试总结百度百度 - 知识图谱一面介绍项目环节大部分时间都在自己讲项目,会问项目应用背景, 项目的评估指标,实际使用效果。出题环节在特定文本领域内比如医疗,设计该领域内的分词、词性标注等任务的解决方案, 主要是回答用到的模型,尤其是最新的模型(我回答的有点偏,讲的通用训练好的语言模型,在该领域数据集上预训练的思路, 不过也提了一些seq2seq模型。聊了bert,bert的两大任务的具体内容。。 预测下一句任务无效的问题,交谈了很久,在一些任务上,预测下一句为什么无效,如何解释无效。

2020-12-10 21:12:26 181

原创 大数据-Hadoop-Spark

https://www.jianshu.com/p/831f396a1564 (Hadoop Spark的面经)Hadoop可靠的、可扩展的,开源的分布式计算框架。可以使用简单的编程,跨计算机集群,处理大型数据集合。 目的就是,将单个服务器扩展成上千个机器组成的一个集群,为大数据提供计算服务。 其中, 每个机器都提供本地计算和存储服务。Hadoop工程包括很多模块:Hive: 提供数据汇...

2019-08-07 22:10:51 154

原创 无监督学习

聚类原型聚类:聚类结构能通过一组原型刻画,原型是指样本空间中具有代表性的点。算法先对原型进行初始化,然后对原型迭代更新求解。 如: KMeans密度聚类:从样本密度的角度,考察样本之间的可连接性,基于可连接样本,不断扩展聚类簇,以获得最终的结果。层次聚类:从不同层次,对数据集进行划分,从而形成树形的聚类结构。数据集的划分,可采用“自底向上”、“自顶向下”的方式。AP聚类Affin...

2019-07-31 23:49:50 306

原创 NLP中的语言模型

https://www.cnblogs.com/guoyaohua/p/9240336.html统计语言模型(Statistical Language Model)N-GRAM参数容易爆炸,长文本无法处理, 还是没有考虑词与词之间的内在联系性,一个个孤立的原子单元。Distributed Representation用一个连续的稠密向量去刻画一个word的特征。词袋模型TF.IDF...

2019-07-05 22:10:39 896

原创 深度学习(RNN系列、CNN、 Attention系列 + 激活函数 + 损失函数 + 优化器 + BN + Transformer+Dropout)

RNN(Recurrent Neural Networks, 循环神经网络), 主要用来处理和预测序列数据。全连接或者卷积网络中, 网络都是从输入到隐含层,再到输出层。 层与层之间是全连接或者部分连接, 每层之间的节点无连接。RNN的隐藏层之间的节点是有连接的。隐藏层的输入包括输入层的输出,还包括上一时刻隐藏的输出。w有两个,输入层到隐藏层的w 和 隐藏层到隐藏层的w, b只有1个。R...

2019-07-04 17:06:16 8589

原创 多模态言语评估-(工作准备)

机器学习方法特征工程流畅度: 从静默、停顿字眼、持续时间,频率几个方面来提特征。 如: 静默次数、平均静默持续时间、静默时间超过0.5s的频率,停顿字眼出现的次数(参考口语顺滑方向)(嗯,啊,额,mmm等语气词,重叠词,重复说的,),子句在整个过程中,静默以及不流畅的频率。最终提取了7维的特征,标准化(均值方差归一)(比简单大数小数归一化靠谱)。语调: 韵律特征如:基频、过零率、音高(主观,...

2019-07-01 19:12:26 987 1

原创 中期实验记录-5.13开始

分类模型: lr: 0.0001, batch_size: 32audio:s:

2019-05-13 22:56:25 165

原创 emotion

情感空间的描述, 情感语料库的建立。语音信号采集, 情感特征提取, 情感识别算法,情感识别技术应用。opensmile: 面向语音情感特征提取的工具,能量、基频、时长、mel倒谱系数。FEELTRACE: 情感标注系统,SEMAINE:大型多媒体情感数据库,提供了情感数据的维度标注结果,情感描述方式,大致分为:离散和维度,两种形式。1)离散的,形容词标签形式,早期研究中使用的多。(情感...

2019-05-10 14:36:17 942 3

原创 五大常用算法总结

1. 分治法分而治之,把一个复杂问题分成两个或更多的相同或相似的子问题,再把子问题分成更小的子问题,直到最后子问题可以简单的直接求解。 原问题的解即子问题的解的合并。(子问题递归)1)最优子结构,可以用分治。 2)子问题的解可以合并为原问题的解。(无法合并的话,就用贪心,或动态规划) 3)子问题相互独立,如果重复的话,会降低效率。应用:递归,汉诺塔问题, 快速排序,归并排序。2. 动态规划...

2019-05-06 16:20:05 1316

原创 SVM + 决策树 + 提升方法 (还有LR、最大熵、)

SVM(Support Vector Machines),支持向量机, 是一种二分类模型, 基本模型是定义在特征空间上的间隔最大的线性分类器,核函数的使用,使它成为实质上的非线性分类器,学习策略,间隔最大化,三类支持向量机:线性可分的支持向量机,(通过硬间隔最大化,学习线性分类器,即线性可分支持向量机,又称硬间隔支持向量机)线性支持向量机, (数据近似线性可分时,通过软间隔最大化,学习一...

2019-05-02 20:20:52 2660

原创 5.8 多模态课题实验

set_random_seed(1):lr:0.0001, batch_size: 64,设置完固定随机数: 结果还算正常。test_loss 目前整体从28.29 , 降到9.44v 还可以, s、int很好, f、n很不好。最后跑完时,结果展示:除了f、n不好,别的都很好。...

2019-04-26 23:55:44 394

原创 课题实验结果

4.23:huber_loss, sigmoid*5,v:的预测值都是5,或4.9上面结果,是跑了不到10轮(算轮么),直接停掉了。尽早结束的结果,loss原因。又重新跑了一次,如果没有尽早停,结果有好转。int这项,一直都是0.全错。 其他都有明显提升。random_seed = 1, 结果保持一致了。s, n结果都为0. v的预测结果基本都是5左右。int的结果每次,都...

2019-04-23 19:06:00 300

原创 Python、C++、Linux知识总结

range, yield, zipyield: 生成器,节约系统资源,避免不必要的内存占用,

2019-04-23 15:01:26 203

原创 数据结构总结(排序、查找、 几种常用的数据结构)

https://blog.csdn.net/hellozhxy/article/details/79911867排序定义:对一个序列对象,根据某个关键字进行排序。排序中的属性:稳定:a原本在b前面,a=b,排序之后,a仍然在b前面。排序算法两大类: 基于比较的, 和基于非比较的。十大排序算法。比较排序: 插入排序(直接插入排序、希尔排序),选择排序(简单选择排序、堆排序),交换排序(冒...

2019-04-20 23:59:00 1371

原创 HMM, CRF(还有EM、GMM)

隐含马尔科夫模型(hidden Markov model, HMM), 可以用于标注问题的统计学习模型,由隐藏的马尔科夫链,随机生成观测序列的过程,属于生成模型。关于时序的概率模型熵,最大熵,是基础。熵:表现了系统所处状态的不确定性程度。平均信息量(平均不确定程度)。最大熵:保留全部的不确定性,将风险降到最小。指数函数形式,形式漂亮简单,实际实现计算复杂。...

2019-04-16 17:41:25 2171

原创 课题实验过程

4.9号初步跑起来,sigmoid_cross_entropy_logits.只有联合优化。发现的问题,1)batch划分不均匀,训练过程,不稳定,忽高忽低;2)代码整理下,最好6个loss一起优化;(有可能只能优化一个联合loss)3)可以图显示。4)不用准确率来衡量。改为softmax 交叉熵。...

2019-04-09 17:50:40 306

原创 个人课题:言语评估

emotion: 情感,情绪,主观的。label一般是:happy、sad、angrysentiment: 态度,情绪,意见。positive、negative,nature课题数据集处理:数据情况:训练集+验证集:2783;测试集(相同题目):299,测试集(不同题目):344。初步, 类标先不平衡, 直接去学,看整体打分预测效果怎样。类标选择二人取平均、最终生成:train,...

2019-04-03 15:38:25 248

原创 统计学习方法-笔记

https://blog.csdn.net/jiaoyangwm/article/details/81139362分类问题(label是有限。离散的)逻辑回归,解决二分类问题。在空间中找到一个决策边界来完成分类的决策。逻辑回归是将线性回归的连续值结果,通过sigmoid函数映射到(0,1)之间,完成分类问题,还能获取到每个类别的概率。损失函数:对数损失函数。对数形式,损失函数的梯度图是碗形...

2019-04-01 21:35:16 166

原创 项目总结:蓝凌

核心,1)对数据建立索引(用于精确匹配);2. WMD(无监督的模型,相似度计算,排序,对于无法精确匹配的,设置阈值)普通问答(问答类型的):返回相似度最高的匹配问句(后面可以接应用场景,返回库里对应的答案, 比如:特定领域的特定知识库)指令(执行某种操作,命令型的):应用场景,语音助手等,1. 分类模型:识别指令类型,2.解析模型:对指令进行解析,提取出机构名(地名)、人名、时间,做什么。...

2019-03-28 18:02:49 746

原创 项目总结-网络文本识别

数据:给定数据集:10000条数据作为训练集。涵盖几十种字体,像素大小也各不相同,排版方式复杂,语言也很多种。原始图片,+ 文本框四个点坐标(里面是标注的文字)最小外接矩形,确定要扣取的文本区域,图片小于45度,转为水平;图片大于45度,转为垂直,最后将垂直的转为水平(倾斜处理)2. 对文字图片进行角度处理,然后归一化成 同一尺寸。图片的宽高统计,选取高度,宽度,为啥???宽高比统计,...

2019-03-28 17:56:49 294

原创 项目总结-问句匹配

匹配模型相关意图: intention语义: semanticSemantic textual similarity 语义文本相似度Reformulation: 问题重述,换个表达方法。分词: Chinese Word Segmentation(WS)词性标注: part of speech(POS)命名实体识别: NERFAQ set: 问答语料库 -> 建立索引。(留...

2019-03-27 23:49:20 1323

原创 LeetCode刷题心得

Move Zeroes:不能创建新数组,只能在原始输入数组上,通过移动的方式得到想要的结果。数组变换的范围,面试重点、 Array Transformation. 数组是极其简单,容易使用的数据结构、把0全部移到数组的后面;非0元素保持原本顺序不变。解决思路:两个要求是相互独立的,可以各自解决,然后拼起来。438. Find All Anagrams in a String:找到所有的...

2019-03-25 10:27:08 694

原创 深度学习,pytorch 学习笔记

pytorch:torch:主模块,用来搭建神经网络的。torchvision: 辅模块,有数据库,和一些训练好的神经网络可以直接用。(VGG, AlexNet, ResNet)和numpy相互转换,数据类型,运算。变量Variable, 三部分:1。data,(相当于Tensor), 2. grad:(当前变量的梯度缓存区) 3. creator: 这个变量的创造节点。Variable...

2019-03-15 10:41:55 259

原创 新手做深度学习项目-话者识别系统

本科毕业设计选的是”基于深度学习的话者识别系统“题目,没接触过深度学习,也不懂话者识别是什么意思,尴尬,只能硬着头皮去一点一点啃了。这里我总结一下,我做完这个项目之后,对话者识别这个领域,对深度学习这个方向学习的所感所得,分享给大家。关于话者识别通过看论文,发现,话者识别在2016年之前,还是停留在用ivector、GMM-UBM,这些简单的机器学习模型,然后用PLDA降维优化;2016年之后,可能

2017-08-12 21:53:15 2567 5

原创 Windows下配置scrapy,error,Microsoft Visual C++ 14.0 is required

这个错误说明:环境依赖于 microsoft visual C++ 14.0, 仔细看报错后面还写着该C++库的下载地址;因此,去提示的链接地址, 老老实实 下载该库就可以正常配置,不会报错了。

2017-08-12 21:03:34 9139

原创 python中让人抓狂的编码问题

python中让人抓狂的编码问题上一篇博客,我在爬虫的时候,已经提到了总遇到编码报错,UnicodeDecodeError, codec can’t , 这种类似的提示,导致程序无法继续下去。 于是,我开始仔细调研,查找资料,今天在这里总结下python中编码解码的情况,以及我遇到的一些坑,让大家以后少走弯路。python环境下的编码程序文件编码程序运行环境的编码*读取外部文件的编码1

2017-08-05 13:19:31 641

原创 python3爬取新闻网站的所有新闻-新手起步

该篇文章适用于新手,让大家在刚接触爬虫的时候少踩点坑。作者接触python也有几个月时间了,最近要用python做数据采集的工作,因此要用爬虫去爬取各大门户网站。好了,废话不多说,直接切入正题。(声明:我整个工作都是在windows下进行的。)1.环境配置。python就够了,关于windows下环境搭建,网上教程很多。这里我附一个。(http://www.

2017-07-31 11:05:49 17767 6

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除