- 博客(9)
- 资源 (5)
- 收藏
- 关注
原创 【动态规划】 最简入门教程
看了本文还入不了门,那就基本告别动态规划了 : ) ~一、简介二、【能用】动态规划解决的问题三、【适合用】动态规划解决的问题四、动态规划求解的3个关键步骤 1. 建立状态转移方程 2. 缓存小规模答案以复用,避免重复计算 3. 按规模顺序从小到大求解,且最小的几个答案必须手动给出五、实例 实例1 —— 斐波那契数列 实例2 - ...
2020-01-16 16:04:12 602
原创 基于kafka和sparkstreaming的实时数据处理系统
目前处理的数据主要是文本数据,挖掘处理也是nlp和一些统计分析的处理,但是采用的流处理的系统框架应该是通用的。体统分为实时部分和H/T+1部分,数据流架构图如下:实时部分开发时考虑的几个主要问题spark streaming和spark structured streaming的选择 手动实现spark streaming和zk之间的offset同步和交互,保证exactly...
2018-04-13 12:01:48 1053
原创 基于词库和规则的中文情感识别方法
buttom-up的方法通常具有较高的稳定性和低的计算复杂度,适合大吞吐量的流式处理。button-up向的情感识别内容如题,分为两块词库和情感识别的语法规则来说明。常用情感词库: 情感识别的语法规则: 主要参考了以下中文情感识别的文献: ...
2018-04-13 11:46:56 3950 1
原创 vader —— 一种基于规则的英文文本情感识别方法
之前舆情项目的合作cp方提出有海外舆情监控的需求,原先的舆情系统的大部分功能都可以天然支持非中文语言,唯独在情感识别上,由于中英文语法和词库的不同,需要重新实现英文的情感识别算法。 考虑到现有项目中中文情感识别是基于规则和词库的(对比基于学习模型),基于现有的流式计算框架,决定采用类似的基于规则和词库的方法来实现英文情感识别是更合适的。再查阅了一些相关文献之后,决定基于vader方法
2018-04-12 16:46:31 16929 3
原创 简易数据库(JDBC等)连接池的实现
连接池基本功能: 1. 初始化n个指定的数据库链接,供后续并发调用。 2. 用完某个链接后,归还这个链接给pool,后续重用 3. 若池子当前没有可用的空闲链接,就往池子里扩容固定数量的新链接 4. 线程安全(同一时刻只能由一个线程来完成 获取链接并更新pool状态的操作 )我的应用场景是在spark分布式mapPartition写ES的时候产生的,因为在每个mapPartition中临时
2018-03-19 20:03:43 298
原创 Stanford 英文词性标注(Part-of-speech)缩写查询
由于最近项目要用到 英文的词性标注,那Stanford的coreNLP的开源实现肯定是不得不参考的,下面整理给出对应论文中的词性标注缩写及实例:String str = "where/WRB, are/VBP, you/PRP, ?/., I/PRP, want/VBP to/TO, know/VB, you/PRP, soon/RB";
2017-10-25 12:51:01 5772 1
原创 新词发现及Java和spark实现
新词发现并不是一个新的课题,但最有意思的一点是如果采用无监督的算法,可以完全脱离人工的经验由算法自动找到有语意的“词语”,而不是胡乱拼凑的汉字片段(归因于算法的有效性和语料本身是由有意义的词语构成的)。本文参考了matrix67的一篇文章,[互联网时代的社会语言学:基于SNS的文本数据挖掘](http://www.matrix67.com/blog/archives/5044),采用无监督方法来发现
2017-08-31 11:52:32 2202 3
原创 解决样本不平衡问题的奇技淫巧 汇总
先举一个“恐怖”的例子,直观的感受一下样本不平衡问题:你根据1000个正样本和1000个负样本正确训练出了一个准确率(precison,下同)90%召回率(recall,下同)90%的分类器,且通过实验验证没有欠采样过采样的问题哦~完美的样本,完美的模型,破费,你心里暗自得意。然后模型上线,正式预测每天的未知样本~。开始一切都很美好,准确率召回率都很好。直到有一天,数据发生了一点变化,还是...
2017-05-09 17:58:29 27454 6
原创 LSTM cell结构的理解和计算
LSTM是传统RNN网络的扩展,其核心结构是其cell单元,网上LSTM的相关资料繁多,质量参差不齐,下面主要结合LSTM神经网络的详细推导和 Christopher Olah的blog两篇文章中的内容进行说明。主要介绍网络如何计算,为何这么算先不展开:)。前者一副图加上29个公式,简洁明了;后者娓娓道来,适合初学者。首先是LSTM cell最常见的结构图:这是变形的版本(找不到更清晰的版本了),
2017-05-03 18:31:02 26798 5
Itti_MatlabTool_Saliency
2014-09-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人