William张-CSDN博客

原创低延时系统设计+高并发方案

交易系统下单，经过网络到达交易所撮合主机，中间经过多个网络设备、交换机、路由器和防火墙等，网络存在延迟。延迟：计算机接收到刺激，到进行响应的时间间隔。（1）磁盘访问，导致延迟：内存数据库、或者固态存储SSD来降低IO延迟。（3）数据计算，导致延迟：FPGA, GPU等技术来加速数据计算过程。（2）进程间通信，导致延迟：采用RDMA降低进程间通信成本。1.平均延时（一个点，到另一个点之间的平均时间），越低越好。2.延迟抖动（每次实际延迟，和平均延迟之间的偏差）3.吞吐量：低延迟下，尽可能高的吞吐量。

2023-08-29 12:24:10 762

原创设计模式-面试常问

这个主题对象在状态变化时，会通知所有的观察者对象，使他们能够自动更新自己，核心在于被观察者中维护一个观察者的链表，如果被观察者对象有变化就会遍历这个链表通知观察者。动态的给对象添加新功能，核心：被装饰者(基类)、装饰者接口、用来装饰的具体类。优点：线程安全，多个线程想要加载类时，只有一个线程可以加载，其它线程要等待。（1）饿汉模式：对象放在类成员变量中，类加载时，就可以初始化实例。把对象的创建统一管理，屏蔽创建类的复杂过程的一种设计方法。保证系统中，一个类，只有一个实例，并且提供对外访问。

2023-08-15 17:49:14 2496

原创计算机网络面试总结

多路复用。。多个TCP连接，复用指复用一个或少量线程，很多网络I/O复用一个或少量的线程来处理这些连接。都是异步的事件驱动的网络模型，—————TCP 流量控制和拥塞控制1.流量控制防止发送数据过快，接收方来不及接收。(发送方和接收方速度不相等，接收方来不及处理的数据放在缓冲区，缓存区满的时候，会丢掉一部分包，因此需要控制发送方的发送速率)流量控制方法：接收方给发送方发送确认报文时，带上win的大小(缓存区剩余空间大小，接收方窗口大小,单位是字节)发送方收到之后，便会调整自己的发送

2021-11-01 23:25:27 1395

原创 C++数据结构算法

1.vector底层是数组，连续内存空间，当内存不够时重新申请2倍的空间，原来数据复制过去，原空间清空2.map multimapSTL的关联容器，map不允许key重复，multimap允许key重复。（key- value）内部元素有序，红黑树可以自动排序（以key为序排列）底层原理是使用了红黑树，O（logN）的查找插入删除的速度。3.unordered_map 和 unordered_multimap和2中两个对外接口基本一致，底层原理不同，key无序，底层实现为 hash t

2021-10-25 16:51:59 709

原创 redis mysql nginx kafka等中间件

redis：内存中的数据结构存储系统，可以用作数据库、缓存、消息中间件。k-v字典存储系统，跨平台的非关系型数据库。支持网络、基于内存、分布式、可选持久化。LRU驱动事件，事务，不同级别的磁盘持久化。redis哨兵(sentinel), 自动分区。redis发布(publish)-订阅(subscribe), 一种消息通信模式，发送者(pub)发布消息，订阅者(sub)接收消息.新消息通过PUBLISH命令发送到频道channel中时，这个消息就会被发送给订阅它的所有客户端。redis s

2021-10-20 22:56:54 2290 1

原创 C++面试总结

1.C/C++中的内存内存分为5个区：（1）堆：堆(heap)是C语言和操作系统里的术语概念，操作系统维护的一块动态分配内存，比如malloc和free，就是对堆内存的动态申请和释放。（生存周期由程序控制。。主动创建。。属于动态内存分配。。）（–动态内存分配：按需分配，充分利用内存空间，及时释放，在程序运行时完成，分配释放要占用cpu资源，要用到指针和引用，）-----操作不当，会造成内存泄漏(memory leak, 程序未能释放掉不再使用的内存。失去对该段内存的控制，造成内存浪费。)---

2021-10-19 21:08:37 225

原创 ElasticSearch学习笔记+华为搜索项目

查询相关query和filter的区别filter是直接过滤掉，没有分数；（都是结构化数据）（查询上下文）query会涉及匹配相似度打分，_score说明文档匹配度，（过滤上下文）term直接去查倒排索引，效率最高。...

2021-10-07 15:12:26 872

原创树、图、队列知识总结

队列队列、堆、栈，都是运算受限的线性表。。线性表，先进先出、后进后出，一端插入、一端删除。（FIFO）顺序队列，链式队列，循环队列。。优先队列：找出键值最大（优先级最高）的元素，取出该元素，动态维护。（总是处理优先级最高的任务。。）（只需要做的操作，删除优先级最高的任务，插入任务。。）树树的基本操作：构建树、树的遍历、插入某节点、查找某节点、删除某节点。二叉树。。（最常用的树结构）1.理想平衡二叉树，（常用！！！—）（堆结构，本质是完全二叉树，叶子节点的位置有规律，适合排序

2021-10-04 23:34:39 267

原创搜索相关知识总结

背景对于规模较大的团队，都会开发自己的搜索引擎，加入各种定制需求、方便优化；对于规模较小的项目或者创业团队，一般都会用一些开源的轮子，比如ElasticSearch、Lucene。（个人感觉，搜索、推荐、广告算法，三者是商业化时代必不可少的领域，对于创造商业价值具有强有力的推动作用。也是我比较喜欢的想做的领域，通过从事该领域，可以深入了解用户行为习惯，了解客户需求，对于业务需求，可以理解的很透彻。也希望自己可以从事该领域，算是找到自己喜欢感兴趣的方向，希望可以做下去的。。先从自学开始。。。嘻嘻）并且，

2021-01-08 22:04:33 648

原创 linux，操作系统开发相关知识总结

操作系统相关进程间通信的方式进程，线程的生命周期。网络相关七层网络模型，tcp， udp。。。

2021-01-04 23:49:53 861

原创面试经验总结

面试总结百度百度 - 知识图谱一面介绍项目环节大部分时间都在自己讲项目，会问项目应用背景，项目的评估指标，实际使用效果。出题环节在特定文本领域内比如医疗，设计该领域内的分词、词性标注等任务的解决方案，主要是回答用到的模型，尤其是最新的模型（我回答的有点偏，讲的通用训练好的语言模型，在该领域数据集上预训练的思路，不过也提了一些seq2seq模型。聊了bert，bert的两大任务的具体内容。。预测下一句任务无效的问题，交谈了很久，在一些任务上，预测下一句为什么无效，如何解释无效。

2020-12-10 21:12:26 201

原创大数据-Hadoop-Spark

https://www.jianshu.com/p/831f396a1564 （Hadoop Spark的面经）Hadoop可靠的、可扩展的，开源的分布式计算框架。可以使用简单的编程，跨计算机集群，处理大型数据集合。目的就是，将单个服务器扩展成上千个机器组成的一个集群，为大数据提供计算服务。其中，每个机器都提供本地计算和存储服务。Hadoop工程包括很多模块：Hive：提供数据汇...

2019-08-07 22:10:51 171

原创无监督学习

聚类原型聚类：聚类结构能通过一组原型刻画，原型是指样本空间中具有代表性的点。算法先对原型进行初始化，然后对原型迭代更新求解。如： KMeans密度聚类:从样本密度的角度，考察样本之间的可连接性，基于可连接样本，不断扩展聚类簇，以获得最终的结果。层次聚类：从不同层次，对数据集进行划分，从而形成树形的聚类结构。数据集的划分，可采用“自底向上”、“自顶向下”的方式。AP聚类Affin...

2019-07-31 23:49:50 326

原创 NLP中的语言模型

https://www.cnblogs.com/guoyaohua/p/9240336.html统计语言模型（Statistical Language Model）N-GRAM参数容易爆炸，长文本无法处理，还是没有考虑词与词之间的内在联系性，一个个孤立的原子单元。Distributed Representation用一个连续的稠密向量去刻画一个word的特征。词袋模型TF.IDF...

2019-07-05 22:10:39 932

原创深度学习（RNN系列、CNN、 Attention系列 + 激活函数 + 损失函数 + 优化器 + BN + Transformer+Dropout）

RNN（Recurrent Neural Networks, 循环神经网络), 主要用来处理和预测序列数据。全连接或者卷积网络中，网络都是从输入到隐含层，再到输出层。层与层之间是全连接或者部分连接，每层之间的节点无连接。RNN的隐藏层之间的节点是有连接的。隐藏层的输入包括输入层的输出，还包括上一时刻隐藏的输出。w有两个，输入层到隐藏层的w 和隐藏层到隐藏层的w， b只有1个。R...

2019-07-04 17:06:16 8786

原创多模态言语评估-(工作准备)

机器学习方法特征工程流畅度：从静默、停顿字眼、持续时间，频率几个方面来提特征。如：静默次数、平均静默持续时间、静默时间超过0.5s的频率，停顿字眼出现的次数(参考口语顺滑方向)(嗯，啊，额，mmm等语气词，重叠词，重复说的，)，子句在整个过程中，静默以及不流畅的频率。最终提取了7维的特征，标准化（均值方差归一）(比简单大数小数归一化靠谱)。语调：韵律特征如：基频、过零率、音高(主观，...

2019-07-01 19:12:26 1047 1

原创中期实验记录-5.13开始

分类模型： lr: 0.0001, batch_size: 32audio：s:

2019-05-13 22:56:25 178

原创 emotion

情感空间的描述，情感语料库的建立。语音信号采集，情感特征提取，情感识别算法，情感识别技术应用。opensmile: 面向语音情感特征提取的工具，能量、基频、时长、mel倒谱系数。FEELTRACE：情感标注系统，SEMAINE：大型多媒体情感数据库，提供了情感数据的维度标注结果，情感描述方式，大致分为：离散和维度，两种形式。1）离散的，形容词标签形式，早期研究中使用的多。（情感...

2019-05-10 14:36:17 1024 3

原创五大常用算法总结

1. 分治法分而治之，把一个复杂问题分成两个或更多的相同或相似的子问题，再把子问题分成更小的子问题，直到最后子问题可以简单的直接求解。原问题的解即子问题的解的合并。（子问题递归）1）最优子结构，可以用分治。 2）子问题的解可以合并为原问题的解。（无法合并的话，就用贪心，或动态规划） 3）子问题相互独立，如果重复的话，会降低效率。应用：递归，汉诺塔问题，快速排序，归并排序。2. 动态规划...

2019-05-06 16:20:05 1344

原创 SVM + 决策树 + 提升方法（还有LR、最大熵、）

SVM(Support Vector Machines),支持向量机，是一种二分类模型，基本模型是定义在特征空间上的间隔最大的线性分类器，核函数的使用，使它成为实质上的非线性分类器，学习策略，间隔最大化，三类支持向量机：线性可分的支持向量机，（通过硬间隔最大化，学习线性分类器，即线性可分支持向量机，又称硬间隔支持向量机）线性支持向量机，（数据近似线性可分时，通过软间隔最大化，学习一...

2019-05-02 20:20:52 2895

原创 5.8 多模态课题实验

set_random_seed(1):lr:0.0001, batch_size: 64,设置完固定随机数：结果还算正常。test_loss 目前整体从28.29 ，降到9.44v 还可以， s、int很好， f、n很不好。最后跑完时，结果展示：除了f、n不好，别的都很好。...

2019-04-26 23:55:44 415

原创课题实验结果

4.23：huber_loss, sigmoid*5,v：的预测值都是5，或4.9上面结果，是跑了不到10轮（算轮么），直接停掉了。尽早结束的结果，loss原因。又重新跑了一次，如果没有尽早停，结果有好转。int这项，一直都是0.全错。其他都有明显提升。random_seed = 1, 结果保持一致了。s， n结果都为0. v的预测结果基本都是5左右。int的结果每次，都...

2019-04-23 19:06:00 319

原创 Python、C++、Linux知识总结

range, yield, zipyield: 生成器，节约系统资源，避免不必要的内存占用，

2019-04-23 15:01:26 219

原创数据结构总结(排序、查找、几种常用的数据结构)

https://blog.csdn.net/hellozhxy/article/details/79911867排序定义：对一个序列对象，根据某个关键字进行排序。排序中的属性：稳定：a原本在b前面，a=b，排序之后，a仍然在b前面。排序算法两大类：基于比较的，和基于非比较的。十大排序算法。比较排序：插入排序（直接插入排序、希尔排序），选择排序（简单选择排序、堆排序），交换排序（冒...

2019-04-20 23:59:00 1413

原创 HMM, CRF(还有EM、GMM)

隐含马尔科夫模型(hidden Markov model, HMM), 可以用于标注问题的统计学习模型，由隐藏的马尔科夫链，随机生成观测序列的过程，属于生成模型。关于时序的概率模型熵，最大熵，是基础。熵：表现了系统所处状态的不确定性程度。平均信息量（平均不确定程度）。最大熵：保留全部的不确定性，将风险降到最小。指数函数形式，形式漂亮简单，实际实现计算复杂。...

2019-04-16 17:41:25 2217

原创课题实验过程

4.9号初步跑起来，sigmoid_cross_entropy_logits.只有联合优化。发现的问题，1）batch划分不均匀，训练过程，不稳定，忽高忽低；2）代码整理下，最好6个loss一起优化；(有可能只能优化一个联合loss)3）可以图显示。4）不用准确率来衡量。改为softmax 交叉熵。...

2019-04-09 17:50:40 328

原创个人课题：言语评估

emotion: 情感，情绪，主观的。label一般是：happy、sad、angrysentiment: 态度，情绪，意见。positive、negative，nature课题数据集处理：数据情况：训练集+验证集：2783；测试集（相同题目）：299，测试集（不同题目）：344。初步，类标先不平衡，直接去学，看整体打分预测效果怎样。类标选择二人取平均、最终生成：train,...

2019-04-03 15:38:25 326

原创统计学习方法-笔记

https://blog.csdn.net/jiaoyangwm/article/details/81139362分类问题（label是有限。离散的）逻辑回归，解决二分类问题。在空间中找到一个决策边界来完成分类的决策。逻辑回归是将线性回归的连续值结果，通过sigmoid函数映射到(0,1)之间，完成分类问题，还能获取到每个类别的概率。损失函数：对数损失函数。对数形式，损失函数的梯度图是碗形...

2019-04-01 21:35:16 181

原创项目总结：蓝凌

核心，1）对数据建立索引（用于精确匹配）；2. WMD（无监督的模型，相似度计算，排序，对于无法精确匹配的，设置阈值）普通问答（问答类型的）：返回相似度最高的匹配问句（后面可以接应用场景，返回库里对应的答案，比如：特定领域的特定知识库）指令（执行某种操作，命令型的）：应用场景，语音助手等，1. 分类模型：识别指令类型，2.解析模型：对指令进行解析，提取出机构名（地名）、人名、时间，做什么。...

2019-03-28 18:02:49 791

原创项目总结-网络文本识别

数据：给定数据集：10000条数据作为训练集。涵盖几十种字体，像素大小也各不相同，排版方式复杂，语言也很多种。原始图片，+ 文本框四个点坐标（里面是标注的文字）最小外接矩形，确定要扣取的文本区域，图片小于45度，转为水平；图片大于45度，转为垂直，最后将垂直的转为水平（倾斜处理）2. 对文字图片进行角度处理，然后归一化成同一尺寸。图片的宽高统计，选取高度，宽度，为啥？？？宽高比统计，...

2019-03-28 17:56:49 318

原创项目总结-问句匹配

匹配模型相关意图： intention语义： semanticSemantic textual similarity 语义文本相似度Reformulation：问题重述，换个表达方法。分词： Chinese Word Segmentation（WS）词性标注： part of speech（POS）命名实体识别： NERFAQ set: 问答语料库 -> 建立索引。（留...

2019-03-27 23:49:20 1424

原创 LeetCode刷题心得

Move Zeroes：不能创建新数组，只能在原始输入数组上，通过移动的方式得到想要的结果。数组变换的范围，面试重点、 Array Transformation. 数组是极其简单，容易使用的数据结构、把0全部移到数组的后面；非0元素保持原本顺序不变。解决思路：两个要求是相互独立的，可以各自解决，然后拼起来。438. Find All Anagrams in a String:找到所有的...

2019-03-25 10:27:08 714

原创深度学习，pytorch 学习笔记

pytorch：torch:主模块，用来搭建神经网络的。torchvision: 辅模块，有数据库，和一些训练好的神经网络可以直接用。（VGG, AlexNet， ResNet）和numpy相互转换，数据类型，运算。变量Variable, 三部分：1。data,(相当于Tensor), 2. grad:(当前变量的梯度缓存区) 3. creator: 这个变量的创造节点。Variable...

2019-03-15 10:41:55 289

原创新手做深度学习项目-话者识别系统

本科毕业设计选的是”基于深度学习的话者识别系统“题目，没接触过深度学习，也不懂话者识别是什么意思，尴尬，只能硬着头皮去一点一点啃了。这里我总结一下，我做完这个项目之后，对话者识别这个领域，对深度学习这个方向学习的所感所得，分享给大家。关于话者识别通过看论文，发现，话者识别在2016年之前，还是停留在用ivector、GMM-UBM，这些简单的机器学习模型，然后用PLDA降维优化；2016年之后，可能

2017-08-12 21:53:15 2604 5

原创 Windows下配置scrapy，error，Microsoft Visual C++ 14.0 is required

这个错误说明：环境依赖于 microsoft visual C++ 14.0, 仔细看报错后面还写着该C++库的下载地址；因此，去提示的链接地址，老老实实下载该库就可以正常配置，不会报错了。

2017-08-12 21:03:34 9158

原创 python中让人抓狂的编码问题

python中让人抓狂的编码问题上一篇博客，我在爬虫的时候，已经提到了总遇到编码报错，UnicodeDecodeError, codec can’t , 这种类似的提示，导致程序无法继续下去。于是，我开始仔细调研，查找资料，今天在这里总结下python中编码解码的情况，以及我遇到的一些坑，让大家以后少走弯路。python环境下的编码程序文件编码程序运行环境的编码*读取外部文件的编码1

2017-08-05 13:19:31 656

原创 python3爬取新闻网站的所有新闻-新手起步

该篇文章适用于新手，让大家在刚接触爬虫的时候少踩点坑。作者接触python也有几个月时间了，最近要用python做数据采集的工作，因此要用爬虫去爬取各大门户网站。好了，废话不多说，直接切入正题。（声明：我整个工作都是在windows下进行的。）1.环境配置。python就够了，关于windows下环境搭建，网上教程很多。这里我附一个。（http://www.

2017-07-31 11:05:49 18035 6

MrWilliamVs的专栏