自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 问答 (1)
  • 收藏
  • 关注

原创 搜索相关知识总结

背景对于规模较大的团队,都会开发自己的搜索引擎,加入各种定制需求、方便优化;对于规模较小的项目或者创业团队,一般都会用一些开源的轮子,比如ElasticSearch、Lucene。(个人感觉,搜索、推荐、广告算法,三者是商业化时代必不可少的领域,对于创造商业价值具有强有力的推动作用。也是我比较喜欢的想做的领域,通过从事该领域,可以深入了解用户行为习惯,了解客户需求,对于业务需求,可以理解的很透彻。也希望自己可以从事该领域,算是找到自己喜欢感兴趣的方向,希望可以做下去的。。先从自学开始。。。嘻嘻)并且,

2021-01-08 22:04:33 23

原创 开发相关知识总结

操作系统相关进程间通信的方式进程, 线程的生命周期。网络相关七层网络模型,tcp, udp。。。

2021-01-04 23:49:53 34

原创 面试经验总结

面试总结百度百度 - 知识图谱一面介绍项目环节大部分时间都在自己讲项目,会问项目应用背景, 项目的评估指标,实际使用效果。出题环节在特定文本领域内比如医疗,设计该领域内的分词、词性标注等任务的解决方案, 主要是回答用到的模型,尤其是最新的模型(我回答的有点偏,讲的通用训练好的语言模型,在该领域数据集上预训练的思路, 不过也提了一些seq2seq模型。聊了bert,bert的两大任务的具体内容。。 预测下一句任务无效的问题,交谈了很久,在一些任务上,预测下一句为什么无效,如何解释无效。

2020-12-10 21:12:26 19

原创 大数据-Hadoop-Spark

https://www.jianshu.com/p/831f396a1564 (Hadoop Spark的面经)Hadoop可靠的、可扩展的,开源的分布式计算框架。可以使用简单的编程,跨计算机集群,处理大型数据集合。 目的就是,将单个服务器扩展成上千个机器组成的一个集群,为大数据提供计算服务。 其中, 每个机器都提供本地计算和存储服务。Hadoop工程包括很多模块:Hive: 提供数据汇...

2019-08-07 22:10:51 49

原创 无监督学习

聚类原型聚类:聚类结构能通过一组原型刻画,原型是指样本空间中具有代表性的点。算法先对原型进行初始化,然后对原型迭代更新求解。 如: KMeans密度聚类:从样本密度的角度,考察样本之间的可连接性,基于可连接样本,不断扩展聚类簇,以获得最终的结果。层次聚类:从不同层次,对数据集进行划分,从而形成树形的聚类结构。数据集的划分,可采用“自底向上”、“自顶向下”的方式。AP聚类Affin...

2019-07-31 23:49:50 133

原创 NLP中的语言模型

https://www.cnblogs.com/guoyaohua/p/9240336.html统计语言模型(Statistical Language Model)N-GRAM参数容易爆炸,长文本无法处理, 还是没有考虑词与词之间的内在联系性,一个个孤立的原子单元。Distributed Representation用一个连续的稠密向量去刻画一个word的特征。词袋模型TF.IDF...

2019-07-05 22:10:39 425

原创 深度学习(RNN系列、CNN、 Attention系列 + 激活函数 + 损失函数 + 优化器 + BN + Transformer+Dropout)

RNN(Recurrent Neural Networks, 循环神经网络), 主要用来处理和预测序列数据。全连接或者卷积网络中, 网络都是从输入到隐含层,再到输出层。 层与层之间是全连接或者部分连接, 每层之间的节点无连接。RNN的隐藏层之间的节点是有连接的。隐藏层的输入包括输入层的输出,还包括上一时刻隐藏的输出。w有两个,输入层到隐藏层的w 和 隐藏层到隐藏层的w, b只有1个。R...

2019-07-04 17:06:16 3285

原创 多模态言语评估-(工作准备)

机器学习方法特征工程流畅度: 从静默、停顿字眼、持续时间,频率几个方面来提特征。 如: 静默次数、平均静默持续时间、静默时间超过0.5s的频率,停顿字眼出现的次数(参考口语顺滑方向)(嗯,啊,额,mmm等语气词,重叠词,重复说的,),子句在整个过程中,静默以及不流畅的频率。最终提取了7维的特征,标准化(均值方差归一)(比简单大数小数归一化靠谱)。语调: 韵律特征如:基频、过零率、音高(主观,...

2019-07-01 19:12:26 381

原创 中期实验记录-5.13开始

分类模型: lr: 0.0001, batch_size: 32audio:s:

2019-05-13 22:56:25 76

原创 emotion

情感空间的描述, 情感语料库的建立。语音信号采集, 情感特征提取, 情感识别算法,情感识别技术应用。opensmile: 面向语音情感特征提取的工具,能量、基频、时长、mel倒谱系数。FEELTRACE: 情感标注系统,SEMAINE:大型多媒体情感数据库,提供了情感数据的维度标注结果,情感描述方式,大致分为:离散和维度,两种形式。1)离散的,形容词标签形式,早期研究中使用的多。(情感...

2019-05-10 14:36:17 530 1

原创 五大常用算法总结

1. 分治法分而治之,把一个复杂问题分成两个或更多的相同或相似的子问题,再把子问题分成更小的子问题,直到最后子问题可以简单的直接求解。 原问题的解即子问题的解的合并。(子问题递归)1)最优子结构,可以用分治。 2)子问题的解可以合并为原问题的解。(无法合并的话,就用贪心,或动态规划) 3)子问题相互独立,如果重复的话,会降低效率。应用:递归,汉诺塔问题, 快速排序,归并排序。2. 动态规划...

2019-05-06 16:20:05 885

原创 SVM + 决策树 + 提升方法 (还有LR、最大熵、)

SVM(Support Vector Machines),支持向量机, 是一种二分类模型, 基本模型是定义在特征空间上的间隔最大的线性分类器,核函数的使用,使它成为实质上的非线性分类器,学习策略,间隔最大化,三类支持向量机:线性可分的支持向量机,(通过硬间隔最大化,学习线性分类器,即线性可分支持向量机,又称硬间隔支持向量机)线性支持向量机, (数据近似线性可分时,通过软间隔最大化,学习一...

2019-05-02 20:20:52 824

原创 5.8 多模态课题实验

set_random_seed(1):lr:0.0001, batch_size: 64,设置完固定随机数: 结果还算正常。test_loss 目前整体从28.29 , 降到9.44v 还可以, s、int很好, f、n很不好。最后跑完时,结果展示:除了f、n不好,别的都很好。...

2019-04-26 23:55:44 172

原创 课题实验结果

4.23:huber_loss, sigmoid*5,v:的预测值都是5,或4.9上面结果,是跑了不到10轮(算轮么),直接停掉了。尽早结束的结果,loss原因。又重新跑了一次,如果没有尽早停,结果有好转。int这项,一直都是0.全错。 其他都有明显提升。random_seed = 1, 结果保持一致了。s, n结果都为0. v的预测结果基本都是5左右。int的结果每次,都...

2019-04-23 19:06:00 194

原创 Python、C++、Linux知识总结

range, yield, zipyield: 生成器,节约系统资源,避免不必要的内存占用,

2019-04-23 15:01:26 92

原创 数据结构总结(排序、查找、 几种常用的数据结构)

https://blog.csdn.net/hellozhxy/article/details/79911867排序定义:对一个序列对象,根据某个关键字进行排序。排序中的属性:稳定:a原本在b前面,a=b,排序之后,a仍然在b前面。排序算法两大类: 基于比较的, 和基于非比较的。十大排序算法。比较排序: 插入排序(直接插入排序、希尔排序),选择排序(简单选择排序、堆排序),交换排序(冒...

2019-04-20 23:59:00 86

原创 HMM, CRF(还有EM、GMM)

隐含马尔科夫模型(hidden Markov model, HMM), 可以用于标注问题的统计学习模型,由隐藏的马尔科夫链,随机生成观测序列的过程,属于生成模型。关于时序的概率模型熵,最大熵,是基础。熵:表现了系统所处状态的不确定性程度。平均信息量(平均不确定程度)。最大熵:保留全部的不确定性,将风险降到最小。指数函数形式,形式漂亮简单,实际实现计算复杂。...

2019-04-16 17:41:25 1596

原创 课题实验过程

4.9号初步跑起来,sigmoid_cross_entropy_logits.只有联合优化。发现的问题,1)batch划分不均匀,训练过程,不稳定,忽高忽低;2)代码整理下,最好6个loss一起优化;(有可能只能优化一个联合loss)3)可以图显示。4)不用准确率来衡量。改为softmax 交叉熵。...

2019-04-09 17:50:40 128

原创 个人课题:言语评估

emotion: 情感,情绪,主观的。label一般是:happy、sad、angrysentiment: 态度,情绪,意见。positive、negative,nature课题数据集处理:数据情况:训练集+验证集:2783;测试集(相同题目):299,测试集(不同题目):344。初步, 类标先不平衡, 直接去学,看整体打分预测效果怎样。类标选择二人取平均、最终生成:train,...

2019-04-03 15:38:25 136

原创 统计学习方法-笔记

https://blog.csdn.net/jiaoyangwm/article/details/81139362分类问题(label是有限。离散的)逻辑回归,解决二分类问题。在空间中找到一个决策边界来完成分类的决策。逻辑回归是将线性回归的连续值结果,通过sigmoid函数映射到(0,1)之间,完成分类问题,还能获取到每个类别的概率。损失函数:对数损失函数。对数形式,损失函数的梯度图是碗形...

2019-04-01 21:35:16 91

原创 项目总结:蓝凌

核心,1)对数据建立索引(用于精确匹配);2. WMD(无监督的模型,相似度计算,排序,对于无法精确匹配的,设置阈值)普通问答(问答类型的):返回相似度最高的匹配问句(后面可以接应用场景,返回库里对应的答案, 比如:特定领域的特定知识库)指令(执行某种操作,命令型的):应用场景,语音助手等,1. 分类模型:识别指令类型,2.解析模型:对指令进行解析,提取出机构名(地名)、人名、时间,做什么。...

2019-03-28 18:02:49 426

原创 项目总结-网络文本识别

数据:给定数据集:10000条数据作为训练集。涵盖几十种字体,像素大小也各不相同,排版方式复杂,语言也很多种。原始图片,+ 文本框四个点坐标(里面是标注的文字)最小外接矩形,确定要扣取的文本区域,图片小于45度,转为水平;图片大于45度,转为垂直,最后将垂直的转为水平(倾斜处理)2. 对文字图片进行角度处理,然后归一化成 同一尺寸。图片的宽高统计,选取高度,宽度,为啥???宽高比统计,...

2019-03-28 17:56:49 160

原创 项目总结-问句匹配

匹配模型相关意图: intention语义: semanticSemantic textual similarity 语义文本相似度Reformulation: 问题重述,换个表达方法。分词: Chinese Word Segmentation(WS)词性标注: part of speech(POS)命名实体识别: NERFAQ set: 问答语料库 -> 建立索引。(留...

2019-03-27 23:49:20 713

原创 LeetCode刷题心得

Move Zeroes:不能创建新数组,只能在原始输入数组上,通过移动的方式得到想要的结果。数组变换的范围,面试重点、 Array Transformation. 数组是极其简单,容易使用的数据结构、把0全部移到数组的后面;非0元素保持原本顺序不变。解决思路:两个要求是相互独立的,可以各自解决,然后拼起来。438. Find All Anagrams in a String:找到所有的...

2019-03-25 10:27:08 511

原创 深度学习,pytorch 学习笔记

pytorch:torch:主模块,用来搭建神经网络的。torchvision: 辅模块,有数据库,和一些训练好的神经网络可以直接用。(VGG, AlexNet, ResNet)和numpy相互转换,数据类型,运算。变量Variable, 三部分:1。data,(相当于Tensor), 2. grad:(当前变量的梯度缓存区) 3. creator: 这个变量的创造节点。Variable...

2019-03-15 10:41:55 117

原创 新手做深度学习项目-话者识别系统

本科毕业设计选的是”基于深度学习的话者识别系统“题目,没接触过深度学习,也不懂话者识别是什么意思,尴尬,只能硬着头皮去一点一点啃了。这里我总结一下,我做完这个项目之后,对话者识别这个领域,对深度学习这个方向学习的所感所得,分享给大家。关于话者识别通过看论文,发现,话者识别在2016年之前,还是停留在用ivector、GMM-UBM,这些简单的机器学习模型,然后用PLDA降维优化;2016年之后,可能

2017-08-12 21:53:15 2097 4

原创 Windows下配置scrapy,error,Microsoft Visual C++ 14.0 is required

这个错误说明:环境依赖于 microsoft visual C++ 14.0, 仔细看报错后面还写着该C++库的下载地址;因此,去提示的链接地址, 老老实实 下载该库就可以正常配置,不会报错了。

2017-08-12 21:03:34 8978

原创 python中让人抓狂的编码问题

python中让人抓狂的编码问题上一篇博客,我在爬虫的时候,已经提到了总遇到编码报错,UnicodeDecodeError, codec can’t , 这种类似的提示,导致程序无法继续下去。 于是,我开始仔细调研,查找资料,今天在这里总结下python中编码解码的情况,以及我遇到的一些坑,让大家以后少走弯路。python环境下的编码程序文件编码程序运行环境的编码*读取外部文件的编码1

2017-08-05 13:19:31 559

原创 python3爬取新闻网站的所有新闻-新手起步

该篇文章适用于新手,让大家在刚接触爬虫的时候少踩点坑。作者接触python也有几个月时间了,最近要用python做数据采集的工作,因此要用爬虫去爬取各大门户网站。好了,废话不多说,直接切入正题。(声明:我整个工作都是在windows下进行的。)1.环境配置。python就够了,关于windows下环境搭建,网上教程很多。这里我附一个。(http://www.

2017-07-31 11:05:49 15350 6

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除