kanbuqinghuanyizhang-CSDN博客

原创特征向量降维常见的几种方法

高纬度特征带来的问题这里就简单描述下。通常我们会使用特征训练模型或特征矩阵求相似度。高维的特征带来的计算成本非常大，甚至完不成。同时一般高维的特征都比较稀疏，直接使用高维的特征训练需要样本量很大，难以拟合，模型效果不好。训练模型时特征的筛选通常我们训练模型时，会人为挑选特征，控制每类特征维度范围，比如年龄我们使用one-hot的方式表示，分成0-10，10-20...，&gt;10...

2018-08-04 15:13:08 14176

原创 faiss简介及示例

简介faiss是为稠密向量提供高效相似度搜索和聚类的框架。由Facebook AI Research研发。具有以下特性。1、提供多种检索方法2、速度快3、可存在内存和磁盘中4、C++实现，提供Python封装调用。5、大部分算法支持GPU实现下面给出一些快速链接方便查找更多内容。github 官方文档 c++类信息 Troubleshooting 官方安装文档...

2018-06-22 15:39:18 52881 9

原创连续特征离散化常用方法

无监督方法1、等宽分箱法比如我们的特征数据在0-100，之间，等宽分成10份，分别为[0-10]，[11-20]，...，[90-100]假设有个数据值为11，那么其对应的one-hot向量为[0,1,0,0,0,0,0,0,0,0]等宽分箱法的缺陷：假设有个别特征值过大，那么和上面分同样多份宽度会拉长，实例就主要集中在前面的箱体中。那么我们设立阈值之外的一等份。此时我们可...

2018-04-25 23:05:27 5154

原创机器学习_特征挑选的方法

todo:暂时是看到一些常用场景对应的一些方法，比较乱，之后统一整理下这篇知乎有关于特征选择的大纲。特征挑选方法特征选择的优点：提高效率，特征越少，模型越简单正则化，防止特征过多出现过拟合去除无关特征，保留相关性大的特征，解释性强特征选择的缺点：筛选特征的计算量较大不同特征组合，也容易发生过拟合容易选到无关特征，解释性差线性模型1、可以通过计...

2018-03-13 15:41:31 403

原创 HashMap梳理

实现Java容器（四）：HashMap（Java 7）的实现原理面试常问： HashMap的工作原理java7和java8的区别 JDK8中，当同一个hash值的节点数不小于8时，将不再以单链表的形式存储了，会被调整成一颗红黑树. JDK7与JDK8中HashMap的实现 Java 8系列之重新认识HashMapHashMap与HashTable不同(针对1.7) 1...

2018-01-30 10:53:24 263

原创大数据_hive_命令行

hive执行参数hive -H 帮助文档usage: hive -d,--define Variable subsitution to apply to hive commands. e.g. -d A=B or --define A=B --database Specify th

2018-01-22 19:51:29 2895

原创大数据_hive_常用查询指令

查看表分区相关信息(我常用来查看分区对应的hdfs路径)desc formatted table_name partition(dt=20170227)查看表相关信息desc formatted table_name;查看表结构信息desc table_name;查看建表语句show create table mds_tblog_expo_dtl查看分区信息

2018-01-22 19:28:53 511

原创大数据_hive_常见问题及解决方案

数据倾斜在创建表时指定倾斜字段、倾斜值1、快速链接：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-SkewedTables2、示例一：CREATE TABLE list_bucket_single (key STRING, value STRING)

2018-01-22 19:25:49 1153 1

原创大数据_hive_function

UDFUDF UDTF UDAF有什么需要去查就行，根据需要的类型来查UDAF：聚合函数，多行聚合成一个值，如max,min...,collect_set(col)...UDTF：将一行拆分成多行，如explode(ARRAY)，json_tuple(jsonStr, k1, k2, ...)，parse_url_tuple(url, p1, p2, ...)使用"SELECT

2018-01-22 19:23:38 420

原创大数据_hive_基本操作

DDLcreateCREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name -- (Note: TEMPORARY available in Hive 0.14.0 and later) [(col_name data_type [COMMENT col_comment], ... [

2018-01-22 19:21:22 1243

原创大数据_hive_map-reduce个数及合并小文件

map数计算方式long splitSize = computeSplitSize(blockSize, minSize, maxSize);protected long computeSplitSize(long blockSize, long minSize, long maxSize) { return Ma

2018-01-22 19:18:02 2630

原创大数据_hadoop_hdfs

架构NameNode和DataNode角色 NameNode为管理节点，执行对文件系统命名空间的操作，如：打开、关闭和重命名文件或目录；并且决定文件块与datanode之间的映射关系。 DataNode为工作节点，响应文件系统客户端的读写请求，存储并检索数据块。并定期向namenode发送它们存储的块的列表，接收来自NameNode的文件块创建、删除和复本改进等命令。数据块

2018-01-20 17:59:22 583

原创大数据_hadoop_mr

流程这里列举最常见的wordcount示例，首先给出执行图例：下面对mapreduce作业进行概述：一个Map/Reduce 作业（job）通常会把输入的数据集切分为若干独立的数据块，由 map任务（task）以完全并行的方式处理它们。框架会对map的输出先进行排序，然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。通常计算节点和存储节

2018-01-20 16:11:15 1647

原创机器学习_阅读笔记_朴素贝叶斯

2018-01-18 19:31:16 246

原创机器学习_阅读笔记_SVM

这里给出阅读的记录，后面把这些内容整理整理成一篇文章第一步：宏观概念支持向量机(SVM)是什么意思？里提供了一些图片解释第二步：最优化公式推导阅读>第七章-支持向量机 7.1.3 间隔最大化推导得到最优化公式第三步：拉格朗日对偶算法首先理解拉格朗日乘子法拉格朗日乘子法如何理解？介绍了基本的概念拉格朗日乘子法那些年学过的高数对知乎上部分回答的一

2018-01-16 19:27:42 233

原创 csdn markdown_图片缩放

把markdown中的图片链接放到src中img src="" width="60%" alt=""/>

2018-01-16 15:30:08 615 1

原创机器学习_阅读笔记_算法评估

样本量与误差样本量影响训练误差及验证误差。总体情况是：样本量少的时候，训练算法基本都能正确拟合数据，所以样本量少的时候训练误差小，但泛化程度不好，对新样本的适应能力不好，所以样本量少的时候交叉验证的误差大。当样本量增加是，训练很难对所有样本拟合，故样本量增大的时候训练误差增大，但算法拟合能力更强了，对新样本的适应能力强，所以样本量增大的时候交叉验证的误差减少。如下示意图：

2018-01-16 15:28:21 608

原创机器学习_阅读笔记_LR

定义　逻辑回归（Logistic Regression）与线性回归（Linear Regression）都是一种广义线性模型（generalized linear model）。逻辑回归假设因变量 y 服从伯努利分布，而线性回归假设因变量 y 服从高斯分布。　　因此与线性回归有很多相同之处，去除Sigmoid映射函数的话，算法就是一个线性回归。可以说，逻辑回归是以线性回归为理论支持

2018-01-15 23:44:35 340

原创机器学习_阅读笔记_梯度下降

前言梯度下降法可以帮助我们找到某个函数的极小值或者最小值。这里先拿一个损失函数来说，假设损失函数如下：我们最终的目的求参数θ0\theta_0θ1\theta_1使得损失函数对于给定的样本求得的值最小。θ0\theta_0、θ1\theta_1对应损失函数的图像关系类似一个碗状(bowl shape) 单个参数与损失函数的关系图类似于以下二维图：我们发现：当θ\

2018-01-15 11:37:17 388

原创机器学习_阅读笔记_决策树

决策树（decision tree）是一种基本的分类与回归方法，本文讨论分类决策树。它可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。决策树的学习通常包括三个步骤：特征选择，决策树的生成和决策树的修剪。模型与学习模型分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点（node）和有向边（directed edge）组成。结

2018-01-07 11:49:59 752

原创最大似然估计

最大似然估计简单的理解就是给定已知样本，推导出最有可能（最大概率）导致出现这样结果的参数值先举个例子来说：抛硬币80次，49次正面，31次反面，我们需要求出抛硬币为正面的概率p。那出现这个情况的概率为p49(1−p)31p49(1−p)31p^{49}(1-p)^{31}，求出ppp的值使得该值为最大值。这时只需要求上述式子求导并令一阶导数为零就可以求出ppp的值了。解得最大似然值p̂&n...

2018-01-07 10:44:48 571

原创机器学习_特征处理

内容来源于其他博客，这里做了个汇总，侵删。标准化归一化数据数据标准化是将数据按比例缩放，使之落入一个小的特定区间。去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。最典型的就是数据的归一化处理，即将数据统一映射到[0,1]区间上。归一化的作用： 1. 提升模型的收敛速度如下图，x1的取值为0-2000，而x2的取值为1-5，假如只有这

2018-01-07 10:29:50 1345

原创机器学习_阅读笔记_K近邻(KNN)

k近邻算法简单，直观：给定一个训练数据集，对新的输入实例，在训练集中找到与该实例最邻近的k个实例，这k个实例的多数属于某个类，就把该输入实例分为这个类。k近邻不需要像LR一样去训练。K近邻模型由三个基本要素组成：距离度量，k值选择，分类决策规则距离度量一般采用欧式距离k值选择k值得选择会对k近邻算法的结果产生重大影响。如果选择的k值较小，就相当于用较小的的邻域中的

2018-01-07 10:27:44 272

原创机器学习

数学基础导数导数与极值当一阶导数等于0，而二阶导数大于0时，为极小值；当一阶导数等于0，而二阶导数小于0时，为极大值点，当一阶导数、二阶导数都等于0时，为驻点。正弦余弦余弦余弦图像余弦相似度常见差值均方误差(mean square error): * 百度知道方差: * 方差计算公式 * 对数指数和对数的公式总结*...

2018-01-07 09:24:54 567

原创 java IO

节点流和处理流JAVA IO操作总结——节点流和处理流　按照流是否直接与特定的地方(如磁盘、内存、设备等)相连，分为节点流和处理流两类。节点流：可以从或向一个特定的地方(节点)读写数据，如文件内存处理流：是对一个已存在的流的连接和封装，通过所封装的流的功能调用实现数据读写。如BufferedReader。处理流的构造方法总是要带一个其他的流对象做参数。一个流对象经过其他流的多次包装，...

2018-01-02 21:10:49 183

原创数据结构与算法_二分查找

二分查找只适用于有序的队列，直接给出python代码非递归# 返回查找到的下标，没有找到返回Nonedef bin_search(arr, val): low = 0; high = len(arr) -1 while low <= high: mid = (low+high) // 2 if arr[mid] == val:

2017-12-31 18:36:36 302

原创数据结构与算法

这里记录一下面试中常用的一些数据结构算法。以下列举一些看到的资料。方向就是应该看哪些方面的东西，哪些需要实现，哪些需要了解其思想。面试常考的常用数据结构与算法树二叉查找树二叉查找树 Python实现二叉树的四种遍历自平衡二叉树(红黑树) AVL 树和红黑树 AVL树的旋转操作排序算法github 十大经典排序算法gitbook 编程之法：面...

2017-12-26 11:38:21 221

原创设计模式资料

记录下，面试如果需要快速的看一遍建议看推荐的网站，真正工作中用到看《Head First设计模式》，后面再慢慢补充吧。书《Head First设计模式》博客HeadFirst 设计模式学习笔记网站菜鸟教程

2017-12-21 21:37:04 163

原创 18_张孝祥_多线程_阻塞队列的应用

都是接口BlockingQueue<E>的实现，所有已知实现类： ArrayBlockingQueue, DelayQueue,LinkedBlockingDeque, LinkedBlockingQueue, PriorityBlockingQueue, SynchronousQueue

2017-12-19 20:11:51 233

原创 17_张孝祥_多线程_同步工具Exchanger

可以在对中对元素进行配对和交换的线程的同步点。每个线程将条目上的某个方法呈现给 exchange 方法，与伙伴线程进行匹配，并且在返回时接收其伙伴的对象。Exchanger 可能被视为 SynchronousQueue 的双向形式。Exchanger 可能在应用程序（比如遗传算法和管道设计）中很有用。构造方法摘要 Exchanger() 创建一个新的 Exchanger。

2017-12-19 19:23:09 175

转载 16_张孝祥_多线程_同步工具CyclicBarrier与CountDownLatch

转载： CyclicBarrier的用法 CountDownLatch（倒计时计数器）使用说明参考： CyclicBarrier和CountDownLatch区别CyclicBarrier　　CyclicBarrier是一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不

2017-12-19 18:38:02 252

转载 11_张孝祥_多线程_线程锁技术

2017-12-18 14:11:34 890

转载 10_张孝祥_多线程_Callable与Future的应用

Callable Runnable Future FutureTask CompletionService

2017-12-17 21:50:24 192

原创 09_张孝祥_多线程_java5线程并发库的应用_线程池

Executors.newFixedThreadPoolExecutors.newSingleThreadExecutorExecutors.newCachedThreadPoolExecutors.newScheduledThreadPoolExecutors.newSingleThreadScheduledExecutor

2017-12-16 23:25:46 330

原创 08_张孝祥_多线程_java5原子性操作类的应用

并发库java.util.concurrent在并发编程中很常用的实用工具类。

2017-12-16 22:22:35 229

原创 06_张孝祥_多线程_ThreadLocal类及应用技巧

ThreadLocal并不是包含Map对象，而是这些特定于线程的值保存在Thread对象中，java.lang.Thread定义了变量:ThreadLocal.ThreadLocalMap threadLocals = null，当线程终止后，这些值会作为垃圾回收。ThreadLocal.ThreadLocalMap中定义Entry[] table变量，Entry类定义为Entry(ThreadLocal k,

2017-12-16 18:35:56 389

kmplayer

Teleport_Pro_iHackSoft.com

空空如也