自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

everlasting_188-java从业者

朝花夕拾,关注数据库,Java、大数据和互联网金融

原创 应该从哪里检索论文

https://academic.microsoft.com/home 从四个方面: 研究机构、人、会议、期刊杂志来进行分类 https://dblp.uni-trier.de/ 作者:browse authors 期刊杂志:browse journals 会议:browse conferen...

2020-06-10 18:57:14 49 0

原创 后台人员使用VUE入门

很久没有写web,最近写一个简单的DEMO,后台使用python,简单的总结下: 1、组件选择 VUE+ELEMENT-UI,组件用ELEMENT-UI基本沟通 2、编辑工具: vscode,使用的vue插件用的vetur,基本上够用。键盘布局对用老的Eclipse用户来说,装个Eclip...

2020-06-01 17:46:15 48 0

原创 AI工程化涉及到的开源选型项目(持续更新)

算法落地会涉及到原始数据加工、原始数据采集、工作流调度和缓存等,以下是今年工程化涉及到的一些开源产品、 图数据库: HugeGraph: 开源分布式图数据存,百度开源,分布式,存储引擎依赖于第三方 dgraph:开源分布式图数据库,存储引擎自身 JanusGraph:开源的分布式图数据库 Neo...

2020-03-27 17:15:08 106 0

原创 秒杀系统思维导图

以前整理的文档

2020-03-24 10:58:02 115 0

原创 大数据典型的技术栈

引用:https://www.jianshu.com/p/c688e47dae1d 计算层少了当前的比较主流的: impla和clickhouse,其他相对来说还比较齐备

2020-03-18 11:06:20 103 0

原创 你可能不需要一个推荐系统

推荐系统对一个企业来说是一个标准的配置,但是很多情况下并不适用,典型的这几种情况并 1、本身严格的规则就能产生很大的收益 2、数据的支撑不够,初期不够,后期无法效果回收 3、ab测试环境没有 1主要是场景的问题,有些垂直特殊的场景确实推荐并不能产生很大的作用。2和3本身是数据团队无法支撑,即使...

2020-02-27 19:32:17 89 0

原创 一个不错的java机器学习项目JSAT

官方地址:https://github.com/EdwardRaff/JSAT/ 项目目标: java的sklearn 主要的算法见:https://github.com/EdwardRaff/JSAT/wiki/Algorithms 概述如下: 1、Data Transforms 2、...

2019-12-30 18:41:22 119 0

原创 K-means聚类自定义距离计算的开源算法选择

如果你想自己定义一个距离的function的话,scikit-learn是不行的,只支持Euclideandistance 如果你觉得spark可以的话,实际上sprk的k-means也是不行的,好一点的是支持Euclidean distance,还支持cosine distance 如果...

2019-11-06 18:07:34 1042 0

原创 关于ad hoc retrieval的解释

转自于:https://blog.csdn.net/memray/article/details/41149633 Q:关于ad hoc retrieval的解释 Answer: TREC刚开始的时候只有两个任务,ad hoc和routing。 前者类似于图书馆里的书籍检索,即书籍库(数据库)...

2019-10-08 15:04:49 95 0

原创 单变量分析的一些有用网络资源

Python数据分析25——seaborn可视化(二)之单变量分布图 https://blog.csdn.net/weixin_44080811/article/details/92193960 数据分析:Pandas单变量图形分析 https://blog.csdn.net/opp0...

2019-09-25 19:12:47 40 1

原创 一个很不错的spss数据分析博客

数据小兵成长记 http://www.datasoldier.net/ 非常不错

2019-09-20 13:44:56 185 1

原创 深度学习是否需要特征工程

主要观点来自于知乎,说的非常好。 “深度能自动获取特征”只是对某些领域而言的。实际上深度学习只是能自动对输入的低阶特征进行组合、变换,得到高阶特征。对于图像处理之类的领域来说,像素点就可以作为低阶特征输入,组合、变换得到的高阶特征也有比较好的效果,所以看似可以自动获取特征。 在其他领域的情况就...

2019-09-12 18:02:54 425 0

原创 直播相关技术文档收藏

关于直播,所有的技术细节都在这里了(一) http://blog.ucloud.cn/archives/694 关于直播,所有的技术细节都在这里了(二) https://blog.ucloud.cn/archives/699 关于直播,所有的技术细节都在这里了(三) http://blo...

2019-09-12 18:01:39 49 0

原创 如何确定推荐中各模块召回的比率

假设三个召回, A,B,C 如果初期认可的程度是重要性也是A>B>C,那么按照:3:1:1进行召回,考虑有一些可能会没有召回 a)如果上一个召回没有,由下一个召回补充,比如: A没有数据,那么B补充,B没有数据,由C补充,C没有,直接由A女性补充 b)如果A,B是主召回,C是候选召回,...

2019-09-12 17:58:39 150 0

原创 python安装中出现 cannot install ''xxx" .It is a distutils installed project and thus we cannot uninstall

tf出现一个库无法卸载,最终解决,其实主要的原因是无法通过pip uninstall卸载,总结经验如下: 1、直接删除在site-package下的相关包 如果找到相关的包,可以参考:https://blog.csdn.net/qq_31747765/article/details/80303...

2019-08-27 14:44:20 50 0

原创 关于协程的一些个人理解

用了这么多年java,觉得java不支持协程就是无脑的行为,必须为go支持协程点个赞,最近在优化性能,对过了这么多年java仍然没在语言级提供协程感觉痛心,刚好看到一篇文章:https://www.jianshu.com/p/837bb161793aC++ 协程的近况、设计与实现中的细节和决策,做...

2019-08-27 14:20:48 82 0

原创 JAVA常见问题点滴

1、classpath 和 classpath* 区别: classpath:只会到你的class路径中查找找文件; classpath*:不仅包含class路径,还包括jar文件中(class路径)进行查找. 另外: "**/" 表示的是任意目录; "**/ap...

2019-07-24 16:10:11 40 0

转载 Embedding从入门到专家必读的十篇论文

转自:https://zhuanlan.zhihu.com/p/58805184 这里是「王喆的机器学习笔记」的第十篇文章,今天我们不分析论文,而是总结一下Embedding方法的学习路径,这也是我三四年前从接触word2vec,到在推荐系统中应用Embedding,再到现在逐渐从传统的sequ...

2019-07-08 13:51:08 477 0

原创 计量经济学五个基本假定

零均值、同方差、无自相关、随机扰动项与解释变量不相关、正态性

2019-06-19 15:46:54 2070 0

原创 infoworld评选的:The best open source software for data storage and analytics

1、最佳软件列表 Apache spark 一枝独秀 Apache pulsar 新兴的消息队列,有超越kafka趋势 Apache beam google提供的统一的流处理结构 Apache solr solr7有了很大的提升 Jupyter python里界面分...

2019-04-19 14:11:01 182 0

原创 MathType公式和LaTex公式互转

MathType是一个强大的数学公式编辑器,普遍应用于教育教学、科研机构、工程学、论文写作、期刊排版、编辑理科试卷等领域。LaTeX是一种基于TeX的排版系统,在现代印刷行业得到广泛的应用,那么如何使两者完美结合 1、LaTeX转MathType 通用步骤 网页或者pdf图片转MathT...

2019-04-14 22:46:57 1225 0

原创 计算广告中的最优化方法

1、定义 最优化方法是给定一个数学上明确表达的密保偶,如何用系统方法和思路找到该问题的最优解。主要讨论:给定某个确定的目标函数以及该函数自变量的一些约束条件,求解该函数的最大活最小值的问题。 2、最优化方法 2.1 拉格朗日法和凸优化 通过引入朗格朗日乘子来进行优化 2.2 下降单纯形法...

2019-02-28 22:58:44 234 1

原创 Java Tutorials for jdk8复习

1、并发类 BlockingQueue defines a first-in-first-out data structure that blocks or times out when you attempt to add to a full queue, or retrieve from a...

2019-01-26 23:36:17 85 0

原创 2018总结之一

AI相关知识拓展 1、开始做NLP,分类、分词和对话有了较深入认识,但是没什么成果 2、现在忙的做推荐系统,初步的产品感觉难度不大,但是在数据整合上认识有错误 3、python比以前好那么一点点,学会了一点VUE 大数据:基本上没什么变化,ES也没深入学习 团结建设配合: 初期很困难,现...

2018-12-30 23:26:25 101 0

原创 用户画像

1、用户画像        用户画像主要是为了刻画一个用户的特征,主要分为定量画像和定性画像,定量的主要是数量,定性的主要是一种特征,i并不能用数量表示,一般是使用标签来表示,比如:一个人的生活环境。标签是某一种用户特征的符号表示,每个标签都规定了我们观察、认识和描述用户的一个角度。用户画像是一...

2018-12-03 22:25:44 1156 1

原创 文献检索与SCI、EI、ISTP

1、SCI、EI、ISTP SCI、EI、ISTP三大索引收录,SCI/ISTP由同一家数据商经营,设在同一上,所以具有完全相同的检索界面。 SCI主要偏重理论性研究。EI偏工程应用(主要科技期刊和会议录论文)。在生物、医学领域,SCI期刊在国内的认可度最高,而在工程技术领域EI认可度相对较高...

2018-11-02 22:41:51 344 0

转载 什么是咨询业

转自: https://bbs.byr.cn/#!article/Consulting/6106 说明:实际上有一部分IT人最终去做IT咨询去了,也是一种活法      管理咨询行业是一个服务性行业,是掌握扎实的管理知识基础和丰富的实际管理经验 ,并且掌握了咨询技法的人所从事的智力密集型的服...

2018-10-31 22:05:49 188 1

转载 对话系统中的槽和槽位

主体转:https://blog.csdn.net/u010159842/article/details/80759428 基本概念: 1、槽可以理解为实体已明确定义的属性,例如打车中的,出发地点槽,目的地槽,出发时间槽中的属性分别是“出发地点”、“目的地”和“出发时间” 2、语义槽是指...

2018-10-11 18:29:22 4616 1

原创 意图识别的三篇博文

搜索引擎的查询意图识别(query理解) by 张帆(自然语言处理组@搜狗)     https://blog.csdn.net/zhoubl668/article/details/7857756 如何使用padlepadle 进行意图识别-开篇     https://www.cnblogs...

2018-09-07 11:53:59 1888 1

原创 搜索引擎中如何将动态数据(比如点击数)加入到最终排序中

方法 方法1: 进行评分扩展,增加个默认字段,如果有直接从redis读取,redis保存key是文档id,对应的为相关数量 方法2: 一个document分主document和点击子doucument,点击子doucument每天晚上更新一次,通过主document和点击子doucument关联...

2018-09-06 15:04:24 334 1

原创 时间序列数据挖掘研究主要内容

主要包括: 1、时间序列相似性搜索 2、时间序列聚类 3、时间序列分类 4、时间序列分割与模式发现 5、海量时间序列可视化 6、时间序列预测   主要应用场景: 1、股票交易 2、销售或订单预测 3、气象预测 4、各种比赛人数的预测 等等    ...

2018-08-27 14:35:51 848 0

翻译 nlp中What is Oracle experiment?

转:https://stackoverflow.com/questions/10542937/what-is-oracle-experiment Question: I have read a paper about machine learning and it contains an Or...

2018-08-24 16:55:59 368 0

转载 国内NLP的那些人那些会

转:https://blog.csdn.net/wusecaiyun/article/details/49689211 统计学和语言学专家都列在一起了,没有区分。 1,黄昌宁,1937年生于广东,1955年考入清华大学电机系,1961年毕业并留校任教至博士生导师, 1983-1984年赴美国耶鲁...

2018-08-24 10:59:11 658 0

转载 运维工作内容图

引用:https://github.com/welliamcao/OpsManage 常见的工作内容如下:  

2018-08-21 11:04:15 1173 2

原创 推荐三篇不错前端工程在CDN上部署文章

三篇不错的前端文章(CDN上部署),基本上覆盖了常见的所有的问题   大公司里怎样开发和部署前端代码? https://www.zhihu.com/question/20790576   前端工程之CDN部署 https://div.io/topic/930   变态的静态资源缓存...

2018-08-21 10:54:44 890 0

转载 中文分词、词类标注、命名实体识别对序列标注算法的应用差异

原文: http://www.shizhuolin.com/2018/05/30/2929.html   1 中文分词 目前网络可找到资料的多为3,4,6类型标注, 在无全局归一时(HMM,MEMM均为局部归一, CRF是全局归一),同样的任务,标注类型适当增多可明显得到更优的效果,或许这是...

2018-07-26 19:24:04 1650 1

原创 Chrome标签页管理技巧

最近检索文章,相关的标签页在20个以上,极大浪费内存,发现了chrome扩展程序管理的还不错推荐: 我使用的是下面三个:     OneTab:节省内存的     Toby:分组的     Tabman Tabs Manager:快速检索的 参考文档https://www.jianshu.c...

2018-07-24 17:26:28 1490 0

原创 centos下python多环境搭建

机器学习的各种开源的模型在python版本3和2的特别多,不好管理,在linux上要建立多个环境,当前我采用Virtualenv来进行管理,以下是记录流水   1、默认python安装pip a)yum install python-pip b)python -m pip install ...

2018-07-23 18:20:01 210 0

原创 文献管理与信息分析

推荐中科大罗昭锋老师的《文献管理与信息分析》,罗老师功德无量。 主要的文献管理软件: 主要的文献分析软件   罗老师开放课程的目录如下(https://www.icourse163.org/course/ustc-9002),主要目录如下: 第一周  科研工作者的信息修炼 1....

2018-07-23 13:53:56 1456 1

原创 python进阶学习资源

主要整理深度和自然学习的一些资源   1、python中图像处理 scikit-image , tf ,open cv, pil   2、python提高速度:多进程 参考资料 python多进程编程常用到的方法  http://www.cnblogs.com/yangmingxia...

2018-07-19 15:19:55 302 0

提示
确定要删除当前文章?
取消 删除