2017年06月_rolin-刘瑞

12月 11月 10月 09月 08月 07月 06月 05月 03月 02月 01月

转载使用 Spark MLlib 做 K-means 聚类分析

摘要: MLlib 是 Spark 生态系统里用来解决大数据机器学习问题的模块。本文将以聚类分析这个典型的机器学习问题为基础，向读者介绍如何使用 MLlib 提供的 K-means 算法对数据做聚类分析，我们还将通过分析源码，进一步加深读者对 MLlib K-means 算法的实现原理和使用方法的理解。引言提起机器学习 (Machine Learning)，相信很多计算机从业者都会

2017-06-28 18:58:08 7898

转载面试干货！21个必知数据科学面试题和答案

最近KDnuggets上发的“20个问题来分辨真假数据科学家”这篇文章非常热门，获得了一月的阅读量排行首位。但是这些问题并没有提供答案，所以KDnuggets的小编们聚在一起写出了这些问题的答案。我还加了一个特别提问——第21问，是20个问题里没有的。下面是答案。 Q1.解释什么是正则化，以及它为什么有用。回答者：Ma

2017-06-28 17:21:29 56964

相似度计算在信息检索、数据挖掘等领域有着广泛的应用，是目前推荐引擎中的重要组成部分。随着互联网用户数目和内容的爆炸性增长，对大规模数据进行相似度计算的需求变得日益强烈。在传统的MapReduce框架下进行相似度计算会引入大量的网络开销，导致性能低下。我们借助于Spark对内存计算的支持以及图划分的思想，大大降低了网络数据传输量；并通过在系统层次对Spark的改进优化，使其可以稳定地扩展至上千台规模

2017-06-28 14:08:34 6313

转载 Scikit-learn使用总结

在机器学习和数据挖掘的应用中，scikit-learn是一个功能强大的python包。在数据量不是过大的情况下，可以解决大部分问题。学习使用scikit-learn的过程中，我自己也在补充着机器学习和数据挖掘的知识。这里根据自己学习sklearn的经验，我做一个总结的笔记。另外，我也想把这篇笔记一直更新下去。1 scikit-learn基础介绍1.1 估计器（Estimator）

2017-06-27 16:29:55 6935

转载如何对一个算法进行复杂度分析

算法复杂度是在《数据结构》这门课程的第一章里出现的，因为它稍微涉及到一些数学问题，所以很多同学感觉很难，加上这个概念也不是那么具体，更让许多同学复习起来无从下手，下面我们就这个问题给各位考生进行分析。首先了解一下几个概念。一个是时间复杂度，一个是渐近时间复杂度。前者是某个算法的时间耗费，它是该算法所求解问题规模n的函数，而后者是指当问题规模趋向无穷大时，该算法时间复杂度的数量级。

2017-06-27 12:05:23 7368

转载非常详细GC学习笔记

GC学习笔记这是我公司同事的GC学习笔记，写得蛮详细的，由浅入深，循序渐进，让人一看就懂，特转到这里。一、GC特性以及各种GC的选择1、垃圾回收器的特性2、对垃圾回收器的选择2.1 连续 VS. 并行2.2 并发 VS. stop-the-world2.3 压缩 VS. 不压缩 VS. 复制二、GC性能指标三、分代回收

2017-06-26 22:43:38 6158

转载 JVM调优系列：（五）JVM常用调试参数和工具

JVM常用调试参数:–verbose:gc在虚拟机发生内存回收时在输出设备显示信息-Xloggc:filename把GC相关日志信息记录到文件以便分析-XX:-HeapDumpOnOutOfMemoryError当首次遭遇OOM时导出此时堆中相关信息-XX:OnError=";" 出现致命ERROR之后运行自定义命令-XX:-PrintClassHistog

2017-06-25 22:49:25 6268

转载 JVM调优系列：（四）GC垃圾回收

跟踪收集算法：复制(copying)：将堆内分成两个相同空间，从根(ThreadLocal的对象，静态对象）开始访问每一个关联的活跃对象，将空间A的活跃对象全部复制到空间B，然后一次性回收整个空间A。因为只访问活跃对象，将所有活动对象复制走之后就清空整个空间，不用去访问死对象，不需要标记骤,所以遍历空间的成本较小，但需要巨大的复制成本和较多的内存。标记清除(mark-sweep)：

2017-06-25 22:48:52 6419

转载 JVM调优系列：（三）类加载和执行机制

类加载机制JVM的类加载是通过ClassLoader及其子类来完成的，类的层次关系和加载顺序可以由下图来描述：每个ClassLoader加载Class的过程是：1.检测此Class是否载入过（即在cache中是否有此Class），如果有到8,如果没有到22.如果parent classloader不存在（没有parent，那parent一定是bootst

2017-06-24 18:54:51 6119

转载 JVM调优系列：（二）JVM运行时数据区域

1) Method Area2) Heap3) Java Stacks4) PC Registers5) Native Method Stacks Java的JVM的内存模型大致可分为3个区：堆区:1.存储的全部是对象，每个对象都包含一个与之对应的class的信息。(class的目的是得到操作指令)2.jvm只有一个堆

2017-06-23 18:51:22 6113

转载 JVM调优系列：（一）什么是JVM

SUN的JDK从1.3.1开始使用HotSpot虚拟机技术,主要使用C++实现,JNI接口部分用C实现.Java原先是把源代码编译为字节码在虚拟机执行,这样执行速度较慢.而HotSpot编译器将常用的部分代码编译为本地(native)代码,这样显著高了性能.HotSpot包括一个解释器和两个编译器，解释与编译混合执行模式，默认启动解释执行。编译器：java源代码被编译器编译

2017-06-23 18:50:50 6163

转载 ALS算法讲解

Kendall秩相关系数（Kendall rank correlation coefficient）对于秩变量对(xi,yi),(xj,yj)：(xi−xj)(yi−yj)⎧⎩⎨⎪⎪>0,=0,0,concordantneither concordant nor discordantdiscordantτ=(number of concord

2017-06-22 22:53:05 36940 3

转载 Elasticsearch Java虚拟机配置详解

ElasticSearch是一个基于Lucene构建的开源，分布式，RESTful搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。支持通过HTTP使用JSON进行数据索引。　　我们建立一个网站或应用程序，并要添加搜索功能，令我们受打击的是：搜索工作是很难的。我们希望我们的搜索解决方案要快，我们希望有一个零配置和一个完全免费的搜索模式，我们希望能够简单地使

2017-06-22 11:29:52 6321

转载 elasticsearch介绍集群,模拟横向扩展节点、节点宕机、改变分片

elasticsearch用于构建高可用和可扩展的系统。扩展的方式可以是购买更好的服务器(纵向扩展)或者购买更多的服务器（横向扩展）,Elasticsearch能从更强大的硬件中获得更好的性能，但是纵向扩展也有一定的局限性。真正的扩展应该是横向的，它通过增加节点来传播负载和增加可靠性。对于大多数数据库而言，横向扩展意味着你的程序将做非常大的改动来利用这些新添加的设备。对比来说，Elasticsea

2017-06-21 14:30:13 6873

转载记录Flume使用KafkaSource的时候Channel队列满了之后发生的怪异问题

Flume的这个问题纠结了2个月，因为之前实在太忙了，没有时间来研究这个问题产生的原理，今天终于研究出来了，找出了这个问题所在。先来描述一下这个问题的现象：Flume的Source用的是KafkaSource，Sink用的是Custom Sink，由于这个Custom Sink写的有一点小问题，比如batchSize是5000次，第4000条就会发生exception，这样每次都会写入40

2017-06-19 22:40:24 14398

转载 Elasticsearch写入性能优化

性能测试在一个节点的一个分片，不设置副本，测试性能在完全默认设置上记录性能数据，作为测试的基准线确保性能测试持续30分钟以上以确认长时间的性能；短时间的测试可能不会碰到segment合并和GC，无法确认这些因素的影响每次基于默认基准线更改一个参数，如果性能有提升就保留设置，并基于此设置做后续的测试bulk使用建议每个请求大小建议在5-15MB，逐步增大测试,当接收到EsRe

2017-06-17 23:43:26 8880

转载关于python中json load出来编码为unicode的问题的解决

技术方法来源网址：http://stackoverflow.com/questions/956867/how-to-get-string-objects-instead-of-unicode-ones-from-json-in-Python昨天遇到一个问题：把一个字典用json.dump(f,data)到文件里面然后再从另外一端json.load(

2017-06-16 13:01:17 22800

转载特征选择 (feature_selection)

当数据预处理完成后，我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说，从两个方面考虑来选择特征：特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。特征与目标的相关性：这点比较显见，与目标相关性高的特征，应当优选选择。除移除低方差法外，本文介绍的其他方法均从相关性考虑。根据特征选择的形式又

2017-06-13 23:43:04 22683 1

转载推荐系统评价：NDCG方法概述

摘要：哪一种模型更适合挖掘信息，主要的决策因子是推荐质量，而推荐系统包括很多很棘手的问题，下面就由这篇文章带给大家推荐系统评价。【编者按】在信息过剩的互联网时代，推荐系统的地位随着大数据的普及愈发重要。评估一个推荐模型的质量面临很多棘手的问题，我们常用的指标是直接的准确率、召回率，但准确率不一定具有很好的相关性。来自Zygmunt Z的这篇综述文章，把推荐当作是一个排名任务，提供了一种

2017-06-13 22:24:31 14737

转载关于推荐系统中的特征工程

转载请注明 http://phunters.lofter.com/ 在多数数据和机器学习的blog里，特征工程 Feature Engineering 都很少被提到。做模型的或者搞Kaggle比赛的人认为这些搞feature工作繁琐又不重要不如多堆几个模型，想入手实际问题的小朋友又不知道怎么提取feature来建模型。我就用个性化推荐系统做个例子，简单说说特征工程在实际的问题里是怎么做。

2017-06-13 20:19:13 6436

转载均方根值（RMS）+ 均方根误差（RMSE）+标准差（Standard Deviation）

1、均方根值（RMS）也称作为效值，它的计算方法是先平方、再平均、然后开方。 2、均方根误差，它是观测值与真值偏差的平方和观测次数n比值的平方根，在实际测量中，观测次数n总是有限的，真值只能用最可信赖（最佳）值来代替.方根误差对一组测量中的特大或特小误差反映非常敏感，所以，均方根误差能够很好地反映出测量的精密度。均方根误差，当对某一量进行甚多次的测量时，取这一测

2017-06-13 20:15:11 9354

转载相似度算法种类

在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K最近邻（KNN）和K均值（K-Means）。当然衡量个体差异的方法有很多，最近查阅了相关的资料，这里整理罗列下。　　为了方便下面的解释和举例，先设定我们要比较X个体和Y个体间的差异，它们都包含了N个维的特征，即X=（x1, x2,

2017-06-12 23:36:38 17680

转载 hive复杂格式array,map,struct使用

目前 hive 支持的复合数据类型有以下几种：map(key1, value1, key2, value2, ...) Creates a map with the given key/value pairsstruct (val1, val2, val3, ...) Creates a struct with the given field values. Struct fie

2017-06-06 18:02:14 80439

转载 Python+NLTK自然语言处理学习（三）：计算机自动学习机制

本文演示使用NLTK让计算机学习如何通过名字识别性别。1、导入NLTK：import nltkfrom nltk.book import *2、定义学习方法def gender_features(word): return {'last_letter':word[-1]}3、导入学习的姓名-性别名单：from nltk.co

2017-06-02 22:53:31 6267

转载 Python+NLTK自然语言处理学习（二）：常用方法（similar、common_contexts、generate）

一、similar用来识别文章中和搜索词相似的词语，可以用在搜索引擎中的相关度识别功能中。text1.similar("monstrous")查询出了text1中与monstrous相关的所有词语：二、common_contexts用来识别2个关键词相似的词语。text2.common_contexts(["monstrous",

2017-06-02 22:52:45 9186

转载 Python+NLTK自然语言处理学习（一）：环境搭建

最近开始学习Python+NLTK自然语言处理，在此分享自己的学习经验，因为是初学，肯定有很多很多不懂的地方，发布此文章绝非为了显示自己的水平，而是因为网络上对NLTK的资料实在太少了，我就想分享一下自己的心得，也希望能够得到更多高手的指点，希望高手们发现不对的地方耐心指点，切勿针锋相对，这样会打击小弟的学习动力的，呵呵～好了，开始吧。一、到NLTK的官网下载Python2

2017-06-02 22:51:36 6665

转载用WordNet实现中文情感分析

1. 分析中文的情感分析可以用词林做，词林有一大类（Ｇ类）对应心理活动，但是相对于wordnet还是太简单了．因此使用nltk+wordnet的方案，如下：1) 中文分词：结巴分词2) 中英文翻译：wordnet汉语开放词网，可从以下网址下载：http://compling.hss.ntu.edu.sg/cow/3) 情感分析：wo

2017-06-02 18:15:25 8162

转载简单问答系统实现原理 - 基于机器学习的

自动问答系统是当前自然语言处理领域一个非常热的方向。它综合运用了知识表示、信息检索、自然语言处理等技术。自动问答系统能够使用户以自然语言提问的形式而不是关键词的组合，提出信息查询需求，系统依据对问题进行分析，从各种数据资源中自动找出准确的答案。从系统功能上讲，自动问答分为开放域自动问答和限定域自动问答。开放域是指不限定问题领域，用户随意提问，系统从海量数据中寻找答案；限定域是指系统事先声明，只能回

2017-06-02 18:13:54 17848 3

转载如果看了此文你还不懂傅里叶变换，那就过来掐死我吧【完整版】

12345678910作者：韩昊知乎：Heinrich微博：@花生油工人知乎专栏：与时间无关的故事谨以此文献给大连海事大学的吴楠老师，柳晓鸣老师，王新年老师以及张晶泊老师。转载的同学请保留上面这句话，谢谢。如果还能保留文章来源就

2017-06-02 17:54:53 6790

转载聊天机器人与自动问答技术

聊天机器人与自动问答技术作者：mjs （360电商技术）引言最近半年，微软的聊天机器人小冰比较火，有些人对这方面的技术产生了兴趣，恰好之前做过自动问答方面的一些简单工作，这次写一篇应景之作，供IT技术男在坐马桶时打发一会时间。聊天机器人属于自动问答(Question Answering)的一个方向，对它的研究很大一部分源自于图灵测试。1995年Dr.

2017-06-02 17:50:28 8925

consul_1.6.1_darwin_amd64.zip

consul_1.6.1_darwin_amd64.zip for mac

2019-09-26

SonarLint-3.5-for-intellj-idea-亲测好使.zip

SonarLint-3.5-for-intellj-idea-亲测好使解压，直接打开idea的preferences,选择plugins，选择下面的install plugin form disk，选择文件SonarLint-3.5.1.2759.zip，完成安装即可

2019-08-09

spark-2.3.3-bin-hadoop2.6.tgz

2019-07-05

spark-2.3.3-bin-hadoop2.6.tgz

2019-07-05

geckodriver-v0.24.0-macos火狐插件

geckodriver-v0.24.0-macos火狐插件,帮助selenium

2019-04-05

draw.io mac版非常好用的画图软件

draw.io非常好用的画图软件支持各种图 mac版本非常好

2019-01-21

mac jd-gui.app版本jd-gui-osx-1.4.0

mac jd-gui.app版本jd-gui-osx-1.4.0 亲自测试可以使用的

2019-01-21

avro-tool-1.7.4.jar下载

avro-tool-1.7.4.jar下载,avro下载,国内下载超级慢啦

2017-03-13

openstack超级源码

2015-01-15

酒店管理系统-毕业设计

酒店管理系统毕业设计,基本的功能,免费下载喔

2014-05-12

MahoutInAction中文版啦word版

MahoutInAction中文版啦word版免费的喔

2014-03-22

hadoop-0.20.2.tar.gz下载

2013-09-30

hbase-0.90.5下载

hbase-0.90.5.tar.gz 分布式列式数据库基于hadoop 的hdfs文件系统 hbase-0.90.5.tar.gz下载

2013-09-30

AjaxControlToolkit.Binary.NET4官网完整版

AjaxControlToolkit.Binary.NET4 官网完整版免费下载《幽灵工作室》提供

2013-06-20

oracle 10g SQL Reference

2013-05-14

C#语言c/结构酒店管理系统_幽灵工作室提供

本系统是c/s结构的酒店管理系统提供了系统的源码，图片，还有数据库文件详细：项目名称：酒店管理系统开发方式：个人开发开发环境：Windows 7 开发工具：Visual Studio 2010 SqlServer Management Studio 开发技术：WinForm应用系统开发项目结构：C –S结构数据库：SqlServer 2008 开发技术：C#、WinForm、ADO.NET 开发周期：两周，按时完成项目描述：项目整体分为权限模块，普通用户模块和管理员模块。1.权限模块的数据库中有用户表和角色表，权限模块有用户登陆，用户修改密码，用户修改角色，用户的添加和删除功能。2.普通用户模块的数据库中有客户表和客户类型的表，普通用户模块有房间入住信息管理，可以管理房间状态，管理房间入住信息，有客户入住信息管理，可以查看入住客户信息，筛选入住客户信息，给具体某个客户增加消费，以房间为单位给用户结账。3.管理员模块的数据库中有房间表，楼层表，房间类型表，房间状态表，管理员模块具有房间信息管理，楼层信息管理，房间状态信息管理，房间类型信息管理，可以对房间，房间状态，房间类型，楼层进行增删改查，还具有修改用户角色和用户密码，添加用户的功能。

2013-05-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

consul_1.6.1_darwin_amd64.zip

SonarLint-3.5-for-intellj-idea-亲测好使.zip

spark-2.3.3-bin-hadoop2.6.tgz

spark-2.3.3-bin-hadoop2.6.tgz

geckodriver-v0.24.0-macos火狐插件

draw.io mac版 非常好用的画图软件

mac jd-gui.app版本jd-gui-osx-1.4.0

avro-tool-1.7.4.jar下载

openstack超级源码

酒店管理系统-毕业设计

MahoutInAction中文版啦word版

hadoop-0.20.2.tar.gz下载

hbase-0.90.5下载

AjaxControlToolkit.Binary.NET4官网完整版

oracle 10g SQL Reference

C#语言c/结构酒店管理系统_幽灵工作室提供

空空如也

draw.io mac版非常好用的画图软件