自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(16)
  • 收藏
  • 关注

转载 二分图的最大匹配、完美匹配和匈牙利算法

这篇文章讲无权二分图(unweighted bipartite graph)的最大匹配(maximum matching)和完美匹配(perfect matching),以及用于求解匹配的匈牙利算法(Hungarian Algorithm);不讲带权二分图的最佳匹配。二分图:简单来说,如果图中点可以被分为两组,并且使得所有边都跨越组的边界,则这就是一个二分图。准确地说:把一个图的顶点...

2017-08-02 09:32:00 81

转载 职业能力名称匹配去噪处理流程样例

1.思路:(1)模式识别:结合uc表的title和job_title字段探索职能结构模式;(2)识别职能:根据识别后的模式实现title的识别;(3)识别方法改进调优:由于识别后的结果中仍可能存在过于细节噪音信息(如:java支付金融业务架构师),故使用title关键字构建trie森林结构,实现title的分层(如:001 001003 001003001 000000000001 ja...

2016-07-05 15:27:00 65

转载 浅谈我对机器学习和文本挖掘的新的理解

转眼间已经工作了一段时间了,回想起2014年初学机器学习时的付出、艰苦和努力,感觉都是值得的。从现在往前看,我是沿着“计算机->统计学->数据分析->数据挖掘->机器学习->文本挖掘”的路径走过来的,我觉得这个思路还是属于比较传统的进阶方法,学习的内容有不少的冗余,但相对来说更稳健一些。今天写这篇文章的目的是想总结一下我最近关于文本挖掘的工作体会以及我对机器...

2015-12-08 23:46:00 167

转载 大数据浮世绘——一个工程师眼中的未来生活

很偶然的机会,我的老师让我做一个关于互联网未来世界的设想。以前曾经浅显的想过,但是真的没有深入的思考过这样一个宏伟的问题。我只是一个普通的人,一个工作没多久的小技术,沧海一粟,河海一滴,我也还无法站到那么那么高的高度去俯瞰脚下的大地。但是,我不是井底之蛙,我希望站到更高的地方去了解这个世界。所以,我也会有很多很多的幻想。自从计算机进入到我们的生活中之后,我们的生活好像是这样产生变化的...

2015-10-30 13:00:00 79

转载 CRF技能词识别过程

最近在用CRF做未登录技能词识别,虽然艰难,但是感觉很爽,效率非常高。(1)数据准备:选取30000行精语料作为训练数据。每一个br作为一条数据。使用已有的技能词典对数据进行无标注分词。(2)训练数据标注:对分词后的语料进行标注。如果某分词结果在技能词典中,则该词作为技能词进行标注;如果某分词结果不在词典中,则该词作为与技能无关词进行标注。标注规则如下:标注采用3列,...

2015-08-25 20:23:00 74

转载 关于机器学习中规则与统计方法的思考

最近工作了一段时间,今天跟大家讨论一下关于“规则与模型”的问题。 大家肯定都知道,机器学习方法主要分两类,一类是基于统计的方法,比如贝叶斯、KNN等,都是对数据的某种特征进行归类计算得到数据划分的依据的;另一类是基于规则的方法,比如,语义规则,语法规则或者业务规则等等,这些规则主要是根据数据本身的特征人为地对分类细节进行限定,没有什么太高深的理论,但是实用性很强...

2015-08-11 10:47:00 256

转载 将一维列表的元素合并为一个字符串

现有一个列表:list=["h","e","l","l","o"]需要将列表里的所有元素合并为一个字符串 “hello”,Python没有内置函数可以将列表的所有元素连接起来,类似于String的join函数。可以采用另一种方法  importitertools >>>s="".join(itertools...

2015-07-27 13:51:00 380

转载 python中列表 元组 字典 集合的区别

列表 元组 字典 集合的区别是python面试中最常见的一个问题。这个问题虽然很基础,但确实能反映出面试者的基础水平。 (1)列表 什么是列表呢?我觉得列表就是我们日常生活中经常见到的清单。比如,统计过去一周我们买过的东西,把这些东西列出来,就是清单。由于我们买一种东西可能不止一次,所以清单中是允许有重复项的。如果我们扩大清单的范围,统计我们过去一周所有的花...

2015-07-26 21:13:00 66

转载 浅谈我对机器学习的理解

算算时间,从开始到现在,做机器学习算法也将近八个月了。虽然还没有达到融会贯通的地步,但至少在熟悉了算法的流程后,我在算法的选择和创造能力上有了不小的提升。实话说,机器学习很难,非常难,要做到完全了解算法的流程、特点、实现方法,并在正确的数据面前选择正确的方法再进行优化得到最优效果,我觉得没有个八年十年的刻苦钻研是不可能的事情。其实整个人工智能范畴都属于科研难题,包括模式识别、...

2015-07-26 20:33:00 219

转载 python汉字输出编码问题

python中文输出乱码问题困扰了多少初学者,我在这方面栽了不知道多少跟头。现在我把我碰到的问题和解决的方法写出来与大家分享一下:1输出乱码所谓的乱码是指“鎴戞槸涓枃瀛楃涓”这样的内容。为什么会输出这样的结果呢?因为python的输入和输入讲究“出入不一致”的原则。所谓“出入不一致”指的什么样的编码进来但和不一定以该编码输出。为什么呢?因为python 的IDE是只支持uni...

2015-07-26 14:24:00 97

转载 猎聘网首发2015互联网中高端人才生态报告

互联网行业自发展以来,以其专业性和使用的普及性这两个矛盾特性,对于广大受众来说,成了最熟悉的陌生人。五十岁以下几乎都是网民,也有个别的高龄网民年龄在七八十岁。而受众对于网络的熟悉仅仅在于使用,上网功能应用、各种软件的使用等,对于互联网的运营以及开发等相关行业内部管理及生态,却碍于互联网本身高度的专业性而无从了解。  日前,猎聘网以自身的大数据分析为基础,率先发布《2015年上半年互联...

2015-07-22 09:51:00 72

转载 微博情感分析(三)

接着上一篇的撒~上一篇提到了微博的几个特点,下面继续说一下微博的第三个特点:(3)表达情感强烈而理性评价淡化由于传播空间的相对自由和匿名评论的相对隐秘,因而网友在表达观点时会采用一些比较极端和激烈的形式,又因微博字数的限制,无法以逻辑鲜明的论述方式进行理性表达,所以在话题型微博中,观点句的表达往往感情色彩强烈,而理性评价淡化,脏话、粗话等表现力强的不雅语汇大量出现,这也成...

2015-07-20 22:13:00 167

转载 敏捷软件开发

什么是敏捷开发? 敏捷开发(Agile Development)是一种以人为核心、迭代、循序渐进的开发方法。怎么理解呢?首先,我们要理解它不是一门技术,它是一种开发方法,也就是一种软件开发的流程,它会指导我们用规定的环节去一步一步完成项目的开发;而这种开发方式的主要驱动核心是人;它采用的是迭代式开发。 什么是迭代?迭代是指把一个复杂且开发周期很长的开发任务,分解...

2015-07-20 22:08:00 63

转载 微博情感分析(二)

上一篇提到了情感分析几个疑问,也许这些疑问可以给大家带来些启发,不过在研究这些疑问之前,我们还是需要详细了解一下微博的特征是怎么样的,会不会对我们对其进行情感分析产生影响。 除了一些很牛X的人,其实大多数的微博用户都是草根,甚至像笔者一样,草根都算不上,只是个小屌丝~微博的主人很少有用真名字的,大都是网名,由于是虚拟化的环境,所以发表意见可以无所顾忌;微博的传播往往...

2015-07-19 10:53:00 151

转载 微博情感分析(一)

话说微博面世已经很久了,但对于微博信息的挖掘却才刚刚起步,这其中的原因当然有信息挖掘的技术还不成熟,但我觉得主要问题还是在于中文信息处理的技术还处于萌芽的阶段。中文语言本身信息量就很大,歧义性词汇多,再加上微博语言语义不整、微博媒介本体中夹杂着大量的标签,导致微博技术发展缓慢。在现在的网络上,用户通过网络主动地表达自己的观点或对其他人或事件的态度,主观性强;微博载体规定的语言只...

2015-07-18 21:16:00 280

转载 准备北漂~

准备北漂~准备北漂~转载于:https://www.cnblogs.com/xpNLP/p/4652750.html

2015-07-16 22:39:00 62

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除