关闭
当前搜索:

Linux上查看和停止所有java进程

1. Linux下查看和停止所有java进程 在Linux下查看所有java进程命令:ps -ef | grep java 停止所有java进程命令:pkill - 9 java 停止特定java进程命令:kill -9 java进程序号...
阅读(3528) 评论(5)

Java API 生产和消费Kafka消息

在我的文章 Kafka集群搭建中,展示了如何创建一个单机版的Kafka服务,在此基础上我们可以利用Java程序来对Kafka服务进行生产和消费消息。1. 创建Maven程序首先在 Intellij IDEA中创建一个maven程序,在pom.xml文件中加入如下的依赖和插件: o...
阅读(1189) 评论(7)

Kafka集群搭建

本文测试环境: 操作系统: CentOS release 6.8 Java 版本: 1.7.0_71 kafka版本: kafka_2.11-0.10.1.0.tgz 1. 单机模式1.1 解压缩包> tar -xzf kafka_2.11-0.10.1.0.tgz > cd kafka_2.11-0.10.1.01.2 启动ZooKeeper服务       Kafka使用ZooKeeper因...
阅读(401) 评论(3)

Java 机器学习库Smile实战(二)AdaBoost

1. AdaBoost算法简介      Boost 算法系列的起源来自于PAC Learnability(PAC 可学习性)。这套理论主要研究的是什么时候一个问题是可被学习的,当然也会探讨针对可学习的问题的具体的学习算法。这套理论是由Valiant提出来的,也因此(还有其他贡献哈)他获得了2010年的图灵奖。下面是他的照片:![这里写图片描述](http://my.csdn.net/uploads...
阅读(748) 评论(9)

Java 机器学习库Smile实战(一)SVM

本文不会介绍SVM的基本原理,如果想了解SVM基本原理,请参阅相关书籍。1. 二分类       Smile 库的SVM类是一个泛型类型,默认情况下进行二分类,选择参数为核函数类型和惩罚项参数。import smile.classification.SVM; import smile.math.kernel.GaussianKernel; double gamma = 1.0; double C...
阅读(1813) 评论(7)

Redis登录认证密码

Redis默认配置是不需要密码认证的,也就是说只要连接的Redis服务器的host和port正确,就可以连接使用。这在安全性上会有一定的问题,所以需要启用Redis的认证密码,增加Redis服务器的安全性。1. 修改配置文件Redis的配置文件默认在/etc/redis.conf,找到如下行:#requirepass foobared去掉前面的注释,并修改为所需要的密码:requirepass my...
阅读(1084) 评论(6)

Intellij IDEA使用Maven管理Scala项目

1. 安装Scala插件      打开IDEA,点击file —> Settings 如下图所示: 接下来点击 Install JetBrains Plugins,搜索 Scala ,点击安装,下图是安装完的结果:2. 创建Maven的Scala工程       依次选择 File –> New Project —> Maven 然后勾选右侧的”Create from archetype”...
阅读(800) 评论(10)

Java中的String、StringBuilder、StringBuffer

1. 继承关系图当使用文本数据时,Java提供了三种类别,包括String, StringBuffer和StringBuilder。当使用大数据来工作时,你应该用StringBuffer或StringBuilder来优化效率。基本上这三个类有许多相似之处。 String 是不可变的(这个概念的更多详细信息,在文档中)。它不允许子类的存在。 StringBuffer, StringBuilder 是可...
阅读(353) 评论(7)

Spark RDD API详解

1. RDD简单介绍      RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分,...
阅读(580) 评论(7)

用JAVA程序调用LibSVM API

1. LibSVM简介       LibSVM是台湾著名教授陈智仁团队的杰作。具有各个语言版本的接口,包括C/C++、Java、Python、Matlab、C# 等等。这套库运算速度还是挺快的,可以很方便的对数据做分类或回归。由于libSVM程序小,运用灵活,输入参数少,并且是开源的,易于扩展,因此成为目前国内应用最多的SVM的库。       这套库可以从http://www.csie.ntu....
阅读(1361) 评论(5)

机器学习(四)经验风险与结构风险

1. 偏差与方差(bias and variance)      在回归问题中,我们用一个简单的线性模型来拟合样本,称为线性回归,如图1;或者用更复杂,高维的函数来拟合,比如二次函数得到图2,六次函数得到图3.      我们可以看出来, 六次函数完美地拟合了六个点,误差为0.但是,当我们用这样的拟合模型来进行预测的时候,效果反而不好.通过观察我们发现,二次的模型也许能够更好地拟合这些样本分布.虽然...
阅读(923) 评论(10)

Java与正则表达式

1. Java正则表达式的使用1.1 典型用法//将一个字符串编译成Pattern对象Pattern p = Pattern.compile("a*b");//使用Pattern对象创建Matcher对象Matcher m = p.matcher("aaaaab");boolean b = m.matches();//返回true1.2 简洁用法上面定义的Pattern对象可以重复使用,如果某个正则...
阅读(326) 评论(9)

Java与JSON互转

Jackson 使用遇到 Unrecognized field, not marked as ignorable Jackson是一个可以轻松的将Java对象转换成json对象和xml文档,同样也可以将json、xml转换成Java对象的框架。非常方便,同时也很高效。最近在使用时,将前台传递的JSON 串转成Java实体对象时,出现了Unrecognized field, not marked a...
阅读(477) 评论(9)

机器学习常见算法优缺点

1. K近邻       算法采用测量不同特征值之间的距离的方法进行分类。 1.1 优点 简单好用,容易理解,精度高,理论成熟,既可以用来做分类也可以用来做回归; 可用于数值型数据和离散型数据; 训练时间复杂度为O(n);无数据输入假定; 对异常值不敏感。 1.2 缺点 计算复杂性高;空间复杂性高; 样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少); 一般数值很大的时候不用...
阅读(1506) 评论(9)

ElasticSearch性能优化

1. 亿级规模的ES查询优化实战 能用filter就不用query filter拿到相应的doc后不计算score不用排序 query会对符合条件的doc计算score并进行排序 filter的查询速度比query快很多 2. 增加相关cache的配置 indices.cache.filter.size: 30% indices.fielddata.cache.size: 60% inde...
阅读(2133) 评论(9)

SparkContext的parallelize

在一个Spark程序的开始部分,有好多是用sparkContext的parallelize制作RDD的,是ParallelCollectionRDD,创建一个并行集合。例如sc.parallelize(0 until numMappers, numMappers)创建并行集合的一个重要参数,是slices的数目(例子中是numMappers),它指定了将数据集切分为几份。在集群模式中,Spark将会...
阅读(609) 评论(10)

Java String.split()用法小结

在java.lang包中有String.split()方法,返回是一个数组我在应用中用到一些,给大家总结一下,仅供大家参考:1、如果用“.”作为分隔的话,必须是如下写法,String.split(“\.”),这样才能正确的分隔开,不能用String.split(“.”);2、如果用“|”作为分隔的话,必须是如下写法,String.split(“\|”),这样才能正确的分隔开,不能用String.sp...
阅读(372) 评论(9)

机器学习(二)Apriori算法

最近看了《机器学习实战》中的第11章(使用Apriori算法进行关联分析)和第12章(使用FP-growth算法来高效发现频繁项集)。正如章节标题所示,这两章讲了无监督机器学习方法中的关联分析问题。关联分析可以用于回答”哪些商品经常被同时购买?”之类的问题。书中举了一些关联分析的例子: 通过查看哪些商品经常在一起购买,可以帮助商店了解用户的购买行为。这种从数据海洋中抽取的知识可以用于商品定价、市场促...
阅读(1002) 评论(11)

python --网页爬虫,文本处理,科学计算,机器学习,数据挖掘资料+附带工具包下载

Python网页爬虫工具: Scrapy Scrapy, a fast high-level screen scraping and web crawling framework for Python. 不少同学肯定有耳闻,依靠Scrapy抓取了不少课程图谱,有关的文章有很多,大牛pluskid以前写过一篇文章:《Scrapy 轻松定制网络爬虫》,久经考验。 官网:http://scr...
阅读(847) 评论(9)

机器学习(一)集成学习

1. 关于集成学习的概念       集成学习是机器学习中一个非常重要且热门的分支,是用多个弱分类器构成一个强分类器,其哲学思想是“三个臭皮匠赛过诸葛亮”。一般的弱分类器可以由决策树,神经网络,贝叶斯分类器,K-近邻等构成。已经有学者理论上证明了集成学习的思想是可以提高分类器的性能的,比如说统计上的原因,计算上的原因以及表示上的原因。1.1 为什么要集成1)模型选择        假设各弱分类...
阅读(528) 评论(5)
131条 共7页首页 上一页 1 2 3 4 5 ... 下一页 尾页
    机器学习公众号

    关注微信公众号,专

    为机器学习入门者
    个人资料
    • 访问:210865次
    • 积分:4573
    • 等级:
    • 排名:第7479名
    • 原创:114篇
    • 转载:14篇
    • 译文:3篇
    • 评论:785条
    博客专栏
    最新评论