Java与JSON互转

Jackson 使用遇到 Unrecognized field, not marked as ignorable Jackson是一个可以轻松的将Java对象转换成json对象和xml文档,同样也可以将json、xml转换成Java对象的框架。非常方便,同时也很高效。最近在使用时,将前台传递的JSON 串转成Java实体对象时,出现了Unrecognized field, not marked a...
阅读(286) 评论(9)

机器学习常见算法优缺点

1. K近邻       算法采用测量不同特征值之间的距离的方法进行分类。 1.1 优点 简单好用,容易理解,精度高,理论成熟,既可以用来做分类也可以用来做回归; 可用于数值型数据和离散型数据; 训练时间复杂度为O(n);无数据输入假定; 对异常值不敏感。 1.2 缺点 计算复杂性高;空间复杂性高; 样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少); 一般数值很大的时候不用...
阅读(956) 评论(9)

ElasticSearch性能优化

1. 亿级规模的ES查询优化实战 能用filter就不用query filter拿到相应的doc后不计算score不用排序 query会对符合条件的doc计算score并进行排序 filter的查询速度比query快很多 2. 增加相关cache的配置 indices.cache.filter.size: 30% indices.fielddata.cache.size: 60% inde...
阅读(1152) 评论(9)

SparkContext的parallelize

在一个Spark程序的开始部分,有好多是用sparkContext的parallelize制作RDD的,是ParallelCollectionRDD,创建一个并行集合。例如sc.parallelize(0 until numMappers, numMappers)创建并行集合的一个重要参数,是slices的数目(例子中是numMappers),它指定了将数据集切分为几份。在集群模式中,Spark将会...
阅读(257) 评论(9)

Java String.split()用法小结

在java.lang包中有String.split()方法,返回是一个数组我在应用中用到一些,给大家总结一下,仅供大家参考:1、如果用“.”作为分隔的话,必须是如下写法,String.split(“\.”),这样才能正确的分隔开,不能用String.split(“.”);2、如果用“|”作为分隔的话,必须是如下写法,String.split(“\|”),这样才能正确的分隔开,不能用String.sp...
阅读(262) 评论(9)

机器学习(二)Apriori算法

最近看了《机器学习实战》中的第11章(使用Apriori算法进行关联分析)和第12章(使用FP-growth算法来高效发现频繁项集)。正如章节标题所示,这两章讲了无监督机器学习方法中的关联分析问题。关联分析可以用于回答”哪些商品经常被同时购买?”之类的问题。书中举了一些关联分析的例子: 通过查看哪些商品经常在一起购买,可以帮助商店了解用户的购买行为。这种从数据海洋中抽取的知识可以用于商品定价、市场促...
阅读(618) 评论(10)

python --网页爬虫,文本处理,科学计算,机器学习,数据挖掘资料+附带工具包下载

Python网页爬虫工具: Scrapy Scrapy, a fast high-level screen scraping and web crawling framework for Python. 不少同学肯定有耳闻,依靠Scrapy抓取了不少课程图谱,有关的文章有很多,大牛pluskid以前写过一篇文章:《Scrapy 轻松定制网络爬虫》,久经考验。 官网:http://scr...
阅读(373) 评论(9)

机器学习(一)集成学习

1. 关于集成学习的概念       集成学习是机器学习中一个非常重要且热门的分支,是用多个弱分类器构成一个强分类器,其哲学思想是“三个臭皮匠赛过诸葛亮”。一般的弱分类器可以由决策树,神经网络,贝叶斯分类器,K-近邻等构成。已经有学者理论上证明了集成学习的思想是可以提高分类器的性能的,比如说统计上的原因,计算上的原因以及表示上的原因。1.1 为什么要集成1)模型选择        假设各弱分类...
阅读(304) 评论(5)

Scikit-learn实战之最近邻算法

1. 最近邻的概念       sklearn.neighbors 提供了基于最近邻的无监督和有监督学习方法的功能。无监督最近邻是许多其他学习方法的基础,尤其是流型学习和谱聚类。有监督的最近邻学习有两种形式:对离散类标的数据进行分类,对连续类标的数据进行回归。       最近邻方法背后的原理是找到一个预定义数量的离新的观测点距离最近的训练样本,并从这些最近点来预测新的观测点的标签。样本的数量可以是...
阅读(353) 评论(7)

Crypto++(二)数字签名算法DSA

本文翻译自 https://www.cryptopp.com/wiki/Digital_Signature_Algorithm,本人英文水平有限,如有翻译不当之处请给出修改建议!DSA是数字签名算法,DSA是 FIPS 186中指定的三种数字签名方案之一。FIPS 186-2 指定了一个1024位的p,160位的q,并且使用SHA-1作为哈希算法。FIPS 186-3 使用更大的哈希值SHA-2作为...
阅读(475) 评论(14)

Crypto++(一)Diffie-Hellman

Diffie-Hellman 是一个密钥协商算法,它允许双方建立一个安全的通信通道。最原始的 Diffie-Hellman 是一个异步协议,也即它是一个未经认证的协议,因此它容易受到中间人攻击的方式攻击。Crypto++通过DH类暴露未认证的DH算法。原始Diffie-Hellman的扩展包含加固交换协议以防止中间人攻击的认证。认证版本的DH协议通常被称为统一Diffie-Hellman。Cryp...
阅读(649) 评论(11)

ElasticSearch Java API(二)增删改查

现在我们来详细的阐述API的CRUD命令(Create,Retrieve,Update,Delete document)。1. 读取文档 GetResponse response = client.prepareGet("indexName","type","id") .setFields("title","_source") .exe...
阅读(724) 评论(7)

ElasticSearch Java API(一)连接集群

使用 Java API 连接到ElasticSearch集群的方法有两种。这两种方式都会使用一个Client ( org.elasticsearch.client.Client ) 接口的恰当实例。Client接口是ElasticSearch API对外提供的各功能的主入口。1. 成为ElasticSearch节点      第一种连接ElasticSearch节点的方式可能会让那些没有接触过Ela...
阅读(1487) 评论(7)

STL源码之红黑树

1. 基本概念       红黑树是平衡二叉搜索树的一种,其通过特定的操作来保持二叉查找树的平衡。首先,我们来复习一下二叉查找树的知识,建议如果对二叉查找树不理解的先去搜一下相关博客来了解一下。二叉搜索树是指一个空树或者具有以下性质的二叉树: 任意节点的左子树不空,则左子树上所有结点的值均小于它的根结点的值; 任意节点的右子树不空,则右子树上所有结点的值均大于它的根结点的值; 任意节点的左、右子树也...
阅读(340) 评论(10)

Java中HashSet和TreeSet的区别

1. HashSetHashSet有以下特点: 不能保证元素的排列顺序,顺序有可能发生变化 不是同步的 集合元素可以是null,但只能放入一个null 当向HashSet集合中存入一个元素时,HashSet会调用该对象的hashCode()方法来得到该对象的hashCode值,然后根据 hashCode值来决定该对象在HashSet中存储位置。 简单的说,HashSet集合判断两个元素相等的标准是...
阅读(279) 评论(9)
27条 共2页1 2 下一页 尾页
    个人资料
    • 访问:105508次
    • 积分:2815
    • 等级:
    • 排名:第12817名
    • 原创:74篇
    • 转载:6篇
    • 译文:4篇
    • 评论:722条
    我的公众号

    博客专栏
    最新评论