2018年07月_To_be_brave1

转载 xgboost

https://blog.csdn.net/qunnie_yi/article/details/80129857在 Kaggle 的很多比赛中，我们可以看到很多 winner 喜欢用 xgboost，而且获得非常好的表现，今天就来看看 xgboost 到底是什么以及如何应用。本文结构：什么是 xgboost？为什么要用它？怎么应用？学习资源什么是 xgboost？XG...

2018-07-30 13:58:52 255

转载过拟合

原文地址：一只鸟的天空，http://blog.csdn.net/heyongluoyao8/article/details/49429629防止过拟合的处理方法过拟合我们都知道，在进行数据挖掘或者机器学习模型建立的时候，因为在统计学习中，假设数据满足独立同分布（i.i.d，independently and identically distributed），即当前已产生的数据可以...

2018-07-30 13:49:35 330

转载命名实体识别的难点与现状

https://baijiahao.baidu.com/s?id=1566811969925699&wfr=spider&for=pc 命名实体识别(Named Entities Recognition, NER)是自然语言处理(Natural Language Processing, NLP)的一个基础任务，其目的是识别语料中人名、地名、组织机构名等命名实体，在所...

2018-07-30 10:58:21 26912 1

转载中文分词

作者：竹间智能 Emotibot链接：https://www.zhihu.com/question/19578687/answer/190569700来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。中文分词是中文文本处理的一个基础步骤，也是中文人机自然语言交互的基础模块。不同于英文的是，中文句子中没有词的界限，因此在进行中文自然语言处理时，通常需要先进行...

2018-07-30 10:51:01 555

https://spaces.ac.cn/archives/4256如果依次阅读该系列文章的读者，就会发现这个系列共提供了两种从0到1的无监督分词方案，第一种就是《【中文分词系列】 2. 基于切分的新词发现》，利用相邻字凝固度（互信息）来做构建词库（有了词库，就可以用词典法分词）；另外一种是《【中文分词系列】 5. 基于语言模型的无监督分词》，后者基本上可以说是提供了一种完整的独立于其它文献的...

2018-07-27 16:20:59 2558

转载基于大规模语料的新词发现算法

原文地址文 / 顾森　　对中文资料进行自然语言处理时，我们会遇到很多其他语言不会有的困难，例如分词——汉语的词与词之间没有空格，那计算机怎么才知道“已结婚的和尚未结婚的”究竟是“已／结婚／的／和／尚未／结婚／的”，还是“已／结婚／的／和尚／未／结婚／的”呢？　　这就是所谓的分词歧义难题。不过，现在很多语言模型都已能比较漂亮地解决这一问题了。但在中文分词领域里，还有一个比分词歧义...

2018-07-27 16:16:15 4840 4

转载 PCA

一，引言　　降维是对数据高维度特征的一种预处理方法。降维是将高维度的数据保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。在实际的生产和应用中，降维在一定的信息损失范围内，可以为我们节省大量的时间和成本。降维也成为了应用非常广泛的数据预处理方法。　　降维具有如下一些优点：（1）使得数据集更易使用（2）降低算法的计算开销（3）去除噪声（4）使得结...

2018-07-26 12:34:18 1642

转载二分查找

前言：博主在学习二分查找时，就对众多不同形式的二分查找写法感到疑惑，而且在OJ上,同一道题目，不同写法的二分，可能会让你 Wrong Answer 或者 TLE,,,,学校集训队有一个15学长，貌似队员都是用它的二分模板，而且基本没出过错，当时"太年轻”，总是觉得，为什么这学长写的二分模板这么健壮，为啥这么写才是对的呢，当然当时也是没怎么想清楚，这几天，在图书馆，偶然翻到 <<编程珠...

2018-07-25 16:38:49 291

原创求二叉树的最大深度，也即其高度

leetcode 104. Maximum Depth of Binary Tree求二叉树的最大深度，也即其高度。递归版本比较容易理解。利用层次遍历非递归求二叉树高度主要的思想是：一层一层地出队列 — 在我们每次访问完毕一层时，这时队列中存储的刚好是下一层的所有元素。所以在下一次循环开始时，首先记录该层的元素个数，一次性访问完这一层的所有元素。/** * Definition f...

2018-07-25 15:19:13 493

转载 SVM中的核函数

1 核函数本质核函数的本质可以概括为如下三点：1）实际应用中，常常遇到线性不可分的情况。针对这种情况，常用做法是把样例特征映射到高维空间中，转化为线性可分问题。2）将样例特征映射到高维空间，可能会遇到维度过高的问题。3）针对可能的维灾难，可以利用核函数。核函数也是将特征从低维到高维的转换，但避免了直接进行高维空间中的复杂计算，可以在低维上进行计算，却能在实质上将分类效果表现...

2018-07-25 14:59:35 3911

转载用户画像

最近在工作之余，结合自己的理解和论坛上的一些帖子，整理了份用户画像的文章，个人觉得这篇文章在宏观上很好地描述了用户画像的主要内容。（文章内的图片来源于不同帖子，权当分享，侵删）一、什么是用户画像用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签，而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打...

2018-07-25 12:20:27 430

转载 5类系统推荐算法,非常好使,非常全

转自：http://www.cnblogs.com/mafeng/p/7912217.html序言　　最近因为PAC平台自动化的需求，开始探坑推荐系统。这个乍一听去乐趣无穷的课题，对于算法大神们来说是这样的：　　　　而对于刚接触这个领域的我来说，是这样的：　　　　在深坑外围徘徊了一周后，我整理了一些推荐系统的基本概念以及一些有代表性的简单的算法，作为初探总结，也希望能抛砖引...

2018-07-25 12:08:16 279

转载逻辑回归解决多分类和softmax

我们已经知道，普通的logistic回归只能针对二分类(Binary Classification)问题，要想实现多个类别的分类，我们必须要改进logistic回归，让其适应多分类问题。关于这种改进，有两种方式可以做到。第一种方式是直接根据每个类别，都建立一个二分类器，带有这个类别的样本标记为1，带有其他类别的样本标记为0。假如我们有个类别，最后我们就得到了个针对不同标记的普通的logis...

2018-07-25 10:37:34 11506 2

转载点击率预估综述

点击率预估综述52cs07/24/2017Twitter Facebook Google+ Pinterest Tumblr 作者：张红林，腾讯高级工程师背景在计算广告系统中，一个可以携带广告请求的用户流量到达后台时，系统需要在较短时间（一般要求不超过100ms）内返回一个或多个排序好的广告列表；在广告系统中，一般最后一步的排序score=bid...

2018-07-20 10:40:44 1197

转载 Spark LDA 主题预测

本文主要对使用Spark MLlib LDA进行主题预测时遇到的工程问题做一总结，列出其中的一些小坑，或可供读者借鉴。关于LDA模型训练可以参考：Spark LDA 主题抽取开发环境：spark-1.5.2，hadoop-2.6.0，spark-1.5.2要求jdk7+。语料有大概70万篇博客，十亿+词汇量，词典大概有五万左右的词。模型准备利用spark mllib LDA进行主题预测需要训练好的...

2018-07-15 12:18:39 817

转载 Spark LDA 主题抽取

转https://blog.csdn.net/poised/article/details/50382107本文主要对使用Spark MLlib LDA进行主题抽取时遇到的工程问题做一总结，列出其中的一些小坑，或可供读者借鉴。关于LDA的具体理论等可以自行google。主题预测请参考：Spark LDA 主题预测开发环境：spark-1.5.2，hadoop-2.6.0，spark-1.5.2要求...

2018-07-15 12:17:56 557

原创 Spark RDD操作

Transformations(转换)Transformation说明map(func)根据传入的函数处理原有的RDD对象中每一个元素，每一个新元素处理完成后返回一个对象,这些新对象组装得到一个新的RDD,新的RDD和旧的RDD元素都是一一对应的filter(func)根据传入的函数来过滤RDD中每一个元素,通过过滤条件的的元素组成一个新的RDDflatMap(func)先进行map操作,然后把m...

2018-07-15 12:15:58 180

转载 C++虚函数表

转https://blog.csdn.net/haoel/article/details/1948051C++ 虚函数表解析<?xml:namespace prefix = o /> 陈皓http://blog.csdn.net/haoel 前言 C++中的虚函数的作用主要是实现了多态的机制。关于多态，简而言之就是用父类型别的指针指向其子类的实例，然后通过父类的指针调用实际子类的成员...

2018-07-13 10:29:44 2930

转载 Spark wordcount入门

今天简单讲一下在local模式下用eclipse开发一个简单的spark应用程序，并在本地运行测试。 1.下载最新版的scala for eclipse版本，选择windows 64位，下载网址：http://scala-ide.org/download/sdk.html 下载好后解压到D盘，打开并选择工作空间。然后创建一个测试项目ScalaDev,右击项目选择Properties，在对话框中...

2018-07-12 16:40:15 2517 1

转载 Spark LDA

https://blog.csdn.net/poised/article/details/50382107本文主要对使用Spark MLlib LDA进行主题抽取时遇到的工程问题做一总结，列出其中的一些小坑，或可供读者借鉴。关于LDA的具体理论等可以自行google。主题预测请参考：Spark LDA 主题预测开发环境：spark-1.5.2，hadoop-2.6.0，spark-1.5.2要求j...

2018-07-10 10:43:01 322

转载 Python数据分析四剑客：IPython、Numpy、pandas、Matplotlib

转http://python.jobbole.com/87465/5.1 Python简介本章将介绍Python的最基本语法，以及一些和深度学习还有计算机视觉最相关的基本使用。5.1.1 Python简史Python是一门解释型的高级编程语言，特点是简单明确。Python作者是荷兰人Guido van Rossum，1982年他获得数学和计算机硕士学位后，在荷兰数学与计算科学研究所（Centrum...

2018-07-06 14:14:50 1311

转载协同过滤推荐算法的原理及实现

转https://blog.csdn.net/yimingsilence/article/details/54934302一、协同过滤算法的原理及实现二、基于物品的协同过滤算法详解一、协同过滤算法的原理及实现协同过滤推荐算法是诞生最早，并且较为著名的推荐算法。主要的功能是预测和推荐。算法通过对用户历史行为数据的挖掘发现用户的偏好，基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算...

2018-07-06 12:21:08 18307

转载计算广告

hhttps://wenku.baidu.com/view/b5fcbdf890c69ec3d4bb753b.html rec_flag=default&sxts=1530848983358&sxts=1530849291236Table of Contents1. 在线广告综述1.1. 广告的定义与目的1.2. 在线广告类型1.3. 在线广告简史1.4. 广告有效性原理1.5. ...

2018-07-06 12:06:39 678

转载 Spark2.0机器学习系列之9：聚类算法(LDA）

https://blog.csdn.net/qq_34531825/article/details/52608003在写这篇文章之前，先说一些题外话。许多机器学习算法（如后面将要提到的LDA）涉及的数学知识太多，前前后后一大堆，理解起来不是那么容易。面对复杂的机器学习模型，尤其是涉及大量数学知识的模型，我们往往要花费大量的时间和精力去推导数学算法（公式），如果过分沉湎于...

2018-07-06 10:16:44 872

转载语义搜索

http://pelhans.com/2018/04/28/xiaoxiangkg-note9/本节对语义搜索做一个简单的介绍，而后介绍语义数据搜索、混合搜索。该部分理解不深，后续会进一步补充。语义搜索简介语义数据搜索存储和索引(Semplore，Dataplore的前身)排序和索引基于结构的分区和查询多数据源搜索–以Hermes 为例混合语义搜索Ref语义搜索简介什么是语义搜索，借用万维网之父T...

2018-07-05 12:13:42 5297

转载知识推理

本节对本体任务推理做一个简单的介绍，并介绍本体推理任务的分类。而后对本体推理的方法和工具做一个介绍。知识推理简介知识推理任务分类知识推理简介描述逻辑本体推理方法与工具介绍基于Tableaux运算相关工具简介基于逻辑编程改写的方法相关工具简介基于一阶查询重写的方法查询重写举例Ontop 工具基于产生式规则的方法模式匹配 RETE 算法相关工具介绍DroolsJenaRDF4J相关工具总结Ref知识推...

2018-07-05 12:12:22 3322

转载知识融合

http://pelhans.com/2018/04/23/xiaoxiangkg-note6/本节主要介绍知识融合相关技术，首先介绍了什么是知识融合，其次对知识融合技术的流程做一个介绍并对知识融合常用工具做一个简单介绍。知识融合简介知识融合的基本技术流程数据预处理记录连接属性相似度的计算编辑距离计算属性相似度Levenshtein DistanceWagner and Fisher Distan...

2018-07-05 12:11:19 5926

转载知识存储

http://pelhans.com/2018/04/20/xiaoxiangkg-note5/知识存储，即获取到的三元组和schema如何存储在计算机中。本节从以Jena为例，对知识在数据库中的导入、存储、查询、更新做一个简要的介绍，而后对主流的图数据库进行介绍。图数据库简介Apache Jena数据的导入查询Endpoint接口查询查询举例更新举例通过SPARQLWrapper 包查询和更新图...

2018-07-05 12:06:57 4694

转载 word2vec词向量训练及gensim的使用

转https://blog.csdn.net/zl_best/article/details/53433072一、什么是词向量词向量最初是用one-hot represention表征的，也就是向量中每一个元素都关联着词库中的一个单词，指定词的向量表示为：其在向量中对应的元素设置为1，其他的元素设置为0。采用这种表示无法对词向量做比较，后来就出现了分布式表征。在word2vec中就是采用分布式表征...

2018-07-05 12:05:31 5835

转载知识挖掘

本节介绍了知识挖掘的相关技术，包含实体链接与消歧，知识规则挖掘，知识图谱表示学习。知识挖掘实体消歧与链接示例一: 基于生成模型的 entity-mention 模型示例二: 构建实体关联图顶点的初始化边的初始化 : 深度语义关系模型基于图的标签传播算法示例三：基于知识库基于向量相似度的实体关联图的构建基于PageRank得分知识图谱表示学习(TranSE)PRA 与 TranSE的结合Ref知识挖...

2018-07-05 12:01:21 706

转载知识抽取方法

http://pelhans.com/2018/03/16/xiaoxiangkg-note2/本节介绍了针对结构化数据、非结构化数据、半结构化数据的知识抽取方法。知识抽取的概念知识抽取的子任务面向非结构化数据的知识抽取实体抽取实体识别与链接关系抽取基于模板的方法基于触发词的Pattern基于依存分析的Pattern监督学习Pipeline训练联合模型半监督学习方法远程监督事件抽取事件抽取的pip...

2018-07-05 12:00:02 9009

转载知识表示

http://pelhans.com/2018/03/16/xiaoxiangkg-note2/本讲首先对早期的知识表示做了一个简单介绍，而后详细介绍了基于语义网的知识表示框架，如RDF和RDFS和查询语言SQARQL。最终给出几个典型的知识项目的知识表示。知识表示历史知识的概念早期的知识表示方法一阶谓词逻辑产生式系统框架表示法语义网络基于语义网的知识表示框架RDF简介RDF概念RDF和RDFSO...

2018-07-05 11:58:47 9843

转载知识图谱与语义技术概览

转 http://pelhans.com/2018/03/15/xiaoxiangkg-note1/知识图谱与语义技术概览。主要介绍知识表示、知识抽取、知识存储、知识融合、知识推理、知识众包、语义搜索、知识问答等内容。同时还包含一些典型的应用案例。若理解有偏差还请指正。知识图谱与语义技术概览知识图谱的概念演化知识图谱的本质知识图谱技术概览知识表示RDFOWLSPARQLJSON-LD知识图谱的分布...

2018-07-05 11:54:38 5529

转载命名实体识别（NER）

命名实体识别（NER）是在自然语言处理中的一个经典问题，其应用也极为广泛。比如从一句话中识别出人名、地名，从电商的搜索中识别出产品的名字，识别药物名称等等。传统的公认比较好的处理算法是条件随机场（CRF），它是一种判别式概率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或是生物序列。简单是说在NER中应用是，给定一系列的特征去预测每个词的标签。如下图：X我们可以看做成一句话的每个单...

2018-07-05 11:47:32 7004

原创深入浅出Spark

2018-07-04 17:07:38 258

转载腾讯社交广告高校算法大赛——总结

转https://blog.csdn.net/ben3ben/article/details/74838338腾讯社交广告高校算法大赛——总结题目描述http://algo.tpai.qq.com/home/home/index.html成绩决赛第7名赛题分析　　比赛中，我们比较关心的一个问题在于：数据线上线下分布不一致：1、某些app和用户的记录比较少；2、数据的时效性要求较高。这对于特征工程会...

2018-07-03 20:14:28 2001

转载 spark mllib 入门学习（一）--聚类算法

http://www.aboutyun.com/thread-22235-1-1.html1.概述首先，笔者要先申明，我也是初学机器学习领域的内容，虽然我是从事大数据平台开发的工作，但是工作中确实没有跟spark MLlib打过交道，所以文中如果有描述错误的地方，还请大家指正。机器学习对高数、python的基础都有一定的要求，但是入门我觉得最重要的是理论联系实际，了解机器学习基本概念，然后结合sp...

2018-07-03 18:09:29 646

转载 spark mllib 入门学习（二）--LDA文档主题模型

http://www.aboutyun.com/thread-22359-1-1.html问题导读：1.什么是LDA文档问题模型？2.LDA 建模算法是什么样的？3.spark MLlib中的LDA模型如何调优？4.运行LDA有哪些小技巧？上次我们简单介绍了聚类算法中的KMeans算法，并且介绍了一个简单的KMeans的例子，本次按照我的计划，我想分享的是聚类算法中的LDA文档主题模型，计划从下次...

2018-07-03 18:02:44 1019

转载 Flume+Spark+Hive+Spark SQL离线分析系统

转https://blog.csdn.net/ymh198816/article/details/52014315 前段时间把Scala和Spark一起学习了，所以借此机会在这里做个总结，顺便和大家一起分享一下目前最火的分布式计算技术Spark！当然Spark不光是可以做离线计算，还提供了许多功能强大的组件，比如说，Spark Streaming 组件做实时计算，和Kafka等消息系统...

2018-07-02 17:01:09 331

转载 Flume+Hadoop+Hive的离线分析系统基本架构

转https://blog.csdn.net/ymh198816/article/details/51540715最近在学习大数据的离线分析技术，所以在这里通过做一个简单的网站点击流数据分析离线系统来和大家一起梳理一下离线分析系统的架构模型。当然这个架构模型只能是离线分析技术的一个简单的入门级架构，实际生产环境中的大数据离线分析技术还涉及到很多细节的处理和高可用的架构。这篇文章的目的只是带大家入个...

2018-07-02 16:59:00 724

hash函数的完全解析

空空如也