自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

JC的博客

学习中的记录--点点滴滴

  • 博客(51)
  • 资源 (2)
  • 收藏
  • 关注

原创 个人人工智能小项目-AI爱

头像识别、自然语言处理

2020-03-06 17:56:08 1342

原创 特征向量降维常见的几种方法

高纬度特征带来的问题这里就简单描述下。 通常我们会使用特征训练模型或特征矩阵求相似度。高维的特征带来的计算成本非常大,甚至完不成。同时一般高维的特征都比较稀疏,直接使用高维的特征训练需要样本量很大,难以拟合,模型效果不好。训练模型时特征的筛选通常我们训练模型时,会人为挑选特征,控制每类特征维度范围,比如年龄我们使用one-hot的方式表示,分成0-10,10-20...,>10...

2018-08-04 15:13:08 13785

原创 faiss简介及示例

简介faiss是为稠密向量提供高效相似度搜索和聚类的框架。由Facebook AI Research研发。 具有以下特性。1、提供多种检索方法2、速度快3、可存在内存和磁盘中4、C++实现,提供Python封装调用。5、大部分算法支持GPU实现下面给出一些快速链接方便查找更多内容。github 官方文档 c++类信息 Troubleshooting 官方安装文档...

2018-06-22 15:39:18 52096 9

原创 连续特征离散化常用方法

无监督方法1、等宽分箱法比如我们的特征数据在0-100,之间,等宽分成10份,分别为[0-10],[11-20],...,[90-100]假设有个数据值为11,那么其对应的one-hot向量为[0,1,0,0,0,0,0,0,0,0]等宽分箱法的缺陷:假设有个别特征值过大,那么和上面分同样多份宽度会拉长,实例就主要集中在前面的箱体中。那么我们设立阈值之外的一等份。此时我们可...

2018-04-25 23:05:27 4532

原创 机器学习_特征挑选的方法

todo:暂时是看到一些常用场景对应的一些方法,比较乱,之后统一整理下这篇知乎有关于特征选择的大纲。特征挑选方法特征选择的优点:提高效率,特征越少,模型越简单正则化,防止特征过多出现过拟合去除无关特征,保留相关性大的特征,解释性强特征选择的缺点:筛选特征的计算量较大不同特征组合,也容易发生过拟合容易选到无关特征,解释性差线性模型1、可以通过计...

2018-03-13 15:41:31 357

原创 HashMap梳理

实现Java容器(四):HashMap(Java 7)的实现原理面试常问: HashMap的工作原理java7和java8的区别 JDK8中,当同一个hash值的节点数不小于8时,将不再以单链表的形式存储了,会被调整成一颗红黑树. JDK7与JDK8中HashMap的实现 Java 8系列之重新认识HashMapHashMap与HashTable不同(针对1.7) 1...

2018-01-30 10:53:24 222

原创 大数据_hive_命令行

hive执行参数hive -H 帮助文档usage: hive -d,--define Variable subsitution to apply to hive commands. e.g. -d A=B or --define A=B --database Specify th

2018-01-22 19:51:29 2820

原创 大数据_hive_常用查询指令

查看表分区相关信息(我常用来查看分区对应的hdfs路径)desc formatted table_name partition(dt=20170227)查看表相关信息desc formatted table_name;查看表结构信息desc table_name;查看建表语句show create table mds_tblog_expo_dtl查看分区信息

2018-01-22 19:28:53 457

原创 大数据_hive_常见问题及解决方案

数据倾斜在创建表时指定倾斜字段、倾斜值1、快速链接:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-SkewedTables2、示例一:CREATE TABLE list_bucket_single (key STRING, value STRING)

2018-01-22 19:25:49 1061 1

原创 大数据_hive_function

UDFUDF UDTF UDAF有什么需要去查就行,根据需要的类型来查UDAF:聚合函数,多行聚合成一个值,如max,min...,collect_set(col)...UDTF:将一行拆分成多行,如explode(ARRAY),json_tuple(jsonStr, k1, k2, ...),parse_url_tuple(url, p1, p2, ...)使用"SELECT

2018-01-22 19:23:38 344

原创 大数据_hive_基本操作

DDLcreateCREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name -- (Note: TEMPORARY available in Hive 0.14.0 and later) [(col_name data_type [COMMENT col_comment], ... [

2018-01-22 19:21:22 1177

原创 大数据_hive_map-reduce个数及合并小文件

map数计算方式long splitSize = computeSplitSize(blockSize, minSize, maxSize);protected long computeSplitSize(long blockSize, long minSize, long maxSize) { return Ma

2018-01-22 19:18:02 2513

原创 大数据_hadoop_hdfs

架构NameNode和DataNode角色 NameNode为管理节点,执行对文件系统命名空间的操作,如:打开、关闭和重命名文件或目录;并且决定文件块与datanode之间的映射关系。 DataNode为工作节点,响应文件系统客户端的读写请求,存储并检索数据块。并定期向namenode发送它们存储的块的列表,接收来自NameNode的文件块创建、删除和复本改进等命令。数据块

2018-01-20 17:59:22 417

原创 大数据_hadoop_mr

流程这里列举最常见的wordcount示例,首先给出执行图例: 下面对mapreduce作业进行概述:  一个Map/Reduce 作业(job) 通常会把输入的数据集切分为若干独立的数据块,由 map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序, 然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。   通常计算节点和存储节

2018-01-20 16:11:15 1582

原创 机器学习_阅读笔记_朴素贝叶斯

理论1、算法优缺点: (1)优点:在数据较少的情况下,依然有效,可以处理多分类问题; (2)缺点:对输入数据的准备方式较为敏感。 (3)适用于标称型数据2、条件假设: (1)假设变量间相互独立,即p(x|ci)=p(x1|ci)∗p(x2|ci)∗···∗p(xn|ci)p(x|c_i)=p(x_1|c_i)∗p(x_2|c_i)∗···∗p(x_n|c_i); (xix_i

2018-01-18 19:31:16 193

原创 机器学习_阅读笔记_SVM

这里给出阅读的记录,后面把这些内容整理整理成一篇文章第一步:宏观概念支持向量机(SVM)是什么意思? 里提供了一些图片解释第二步:最优化公式推导阅读>第七章-支持向量机 7.1.3 间隔最大化 推导得到最优化公式 第三步:拉格朗日对偶算法首先理解拉格朗日乘子法 拉格朗日乘子法如何理解?介绍了基本的概念 拉格朗日乘子法 那些年学过的高数对知乎上部分回答的一

2018-01-16 19:27:42 187

原创 csdn markdown_图片缩放

把markdown中的图片链接放到src中img src="" width="60%" alt=""/>

2018-01-16 15:30:08 542 1

原创 机器学习_阅读笔记_算法评估

样本量与误差样本量影响训练误差及验证误差。 总体情况是:样本量少的时候,训练算法基本都能正确拟合数据,所以样本量少的时候训练误差小,但泛化程度不好,对新样本的适应能力不好,所以样本量少的时候交叉验证的误差大。 当样本量增加是,训练很难对所有样本拟合,故样本量增大的时候训练误差增大,但算法拟合能力更强了,对新样本的适应能力强,所以样本量增大的时候交叉验证的误差减少。 如下示意图:

2018-01-16 15:28:21 503

原创 机器学习_阅读笔记_LR

定义 逻辑回归(Logistic Regression)与线性回归(Linear Regression)都是一种广义线性模型(generalized linear model)。逻辑回归假设因变量 y 服从伯努利分布,而线性回归假设因变量 y 服从 高斯分布。    因此与线性回归有很多相同之处,去除Sigmoid映射函数的话,算法就是一个线性回归。可以说,逻辑回归是以线性回归为理论支持

2018-01-15 23:44:35 278

原创 机器学习_阅读笔记_梯度下降

前言梯度下降法可以帮助我们找到某个函数的极小值或者最小值。这里先拿一个损失函数来说,假设损失函数如下: 我们最终的目的求参数θ0\theta_0θ1\theta_1使得损失函数对于给定的样本求得的值最小。θ0\theta_0、θ1\theta_1对应损失函数的图像关系类似一个碗状(bowl shape) 单个参数与损失函数的关系图类似于以下二维图: 我们发现:当θ\

2018-01-15 11:37:17 332

原创 机器学习_阅读笔记_决策树

决策树(decision tree)是一种基本的分类与回归方法,本文讨论分类决策树。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。决策树的学习通常包括三个步骤:特征选择,决策树的生成和决策树的修剪。模型与学习模型 分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结

2018-01-07 11:49:59 690

原创 最大似然估计

最大似然估计简单的理解就是给定已知样本,推导出最有可能(最大概率)导致出现这样结果的参数值 先举个例子来说: 抛硬币80次,49次正面,31次反面,我们需要求出抛硬币为正面的概率p。那出现这个情况的概率为p49(1−p)31p49(1−p)31p^{49}(1-p)^{31},求出ppp的值使得该值为最大值。这时只需要求上述式子求导并令一阶导数为零就可以求出ppp的值了。解得最大似然值p̂&n...

2018-01-07 10:44:48 496

原创 机器学习_特征处理

内容来源于其他博客,这里做了个汇总,侵删。标准化归一化数据数据标准化是将数据按比例缩放,使之落入一个小的特定区间。去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上。归一化的作用: 1. 提升模型的收敛速度   如下图,x1的取值为0-2000,而x2的取值为1-5,假如只有这

2018-01-07 10:29:50 1231

原创 机器学习_阅读笔记_K近邻(KNN)

k近邻算法简单,直观:给定一个训练数据集,对新的输入实例,在训练集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。k近邻不需要像LR一样去训练。K近邻模型由三个基本要素组成:距离度量,k值选择,分类决策规则距离度量一般采用欧式距离k值选择k值得选择会对k近邻算法的结果产生重大影响。 如果选择的k值较小,就相当于用较小的的邻域中的

2018-01-07 10:27:44 217

原创 机器学习

数学基础导数导数与极值当一阶导数等于0,而二阶导数大于0时,为极小值;当一阶导数等于0,而二阶导数小于0时,为极大值点,当一阶导数、二阶导数都等于0时,为驻点。正弦余弦余弦余弦图像余弦相似度常见差值均方误差(mean square error): * 百度知道方差: * 方差计算公式 * 对数指数和对数的公式总结*...

2018-01-07 09:24:54 484

原创 java nio

Java NIO 面试整理

2018-01-04 00:50:03 124

原创 java IO

节点流和处理流JAVA IO操作总结——节点流和处理流  按照流是否直接与特定的地方(如磁盘、内存、设备等)相连,分为节点流和处理流两类。节点流:可以从或向一个特定的地方(节点)读写数据,如文件内存处理流:是对一个已存在的流的连接和封装,通过所封装的流的功能调用实现数据读写。如BufferedReader。处理流的构造方法总是要带一个其他的流对象做参数。一个流对象经过其他流的多次包装,...

2018-01-02 21:10:49 139

原创 数据结构与算法_二分查找

二分查找只适用于有序的队列,直接给出python代码非递归# 返回查找到的下标,没有找到返回Nonedef bin_search(arr, val): low = 0; high = len(arr) -1 while low <= high: mid = (low+high) // 2 if arr[mid] == val:

2017-12-31 18:36:36 221

原创 数据结构与算法

这里记录一下面试中常用的一些数据结构算法。以下列举一些看到的资料。方向就是应该看哪些方面的东西,哪些需要实现,哪些需要了解其思想。面试常考的常用数据结构与算法树二叉查找树 二叉查找树 Python实现二叉树的四种遍历 自平衡二叉树(红黑树) AVL 树和红黑树 AVL树的旋转操作排序算法github 十大经典排序算法gitbook 编程之法:面...

2017-12-26 11:38:21 178

原创 设计模式-单例模式

单例模式的常用方法

2017-12-22 16:31:08 113

原创 设计模式资料

记录下,面试如果需要快速的看一遍建议看推荐的网站,真正工作中用到看《Head First设计模式》,后面再慢慢补充吧。书《Head First设计模式》博客HeadFirst 设计模式学习笔记网站菜鸟教程

2017-12-21 21:37:04 129

原创 18_张孝祥_多线程_阻塞队列的应用

都是接口BlockingQueue<E>的实现,所有已知实现类: ArrayBlockingQueue, DelayQueue,LinkedBlockingDeque, LinkedBlockingQueue, PriorityBlockingQueue, SynchronousQueue

2017-12-19 20:11:51 186

原创 17_张孝祥_多线程_同步工具Exchanger

可以在对中对元素进行配对和交换的线程的同步点。每个线程将条目上的某个方法呈现给 exchange 方法,与伙伴线程进行匹配,并且在返回时接收其伙伴的对象。Exchanger 可能被视为 SynchronousQueue 的双向形式。Exchanger 可能在应用程序(比如遗传算法和管道设计)中很有用。构造方法摘要 Exchanger() 创建一个新的 Exchanger。

2017-12-19 19:23:09 138

转载 16_张孝祥_多线程_同步工具CyclicBarrier与CountDownLatch

转载: CyclicBarrier的用法 CountDownLatch(倒计时计数器)使用说明参考: CyclicBarrier和CountDownLatch区别CyclicBarrier  CyclicBarrier是一个同步辅助类,它允许一组线程互相等待,直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中,这些线程必须不

2017-12-19 18:38:02 206

原创 15_张孝祥_多线程_Semaphere同步工具

Semaphere

2017-12-18 23:31:10 202

转载 11_张孝祥_多线程_线程锁技术

转载Java并发编程:Locklocks相关类锁相关的类都在包java.util.concurrent.locks下,有以下类和接口:|---AbstractOwnableSynchronizer|---AbstractQueuedLongSynchronizer|---AbstractQueuedSynchronizer|---Condition|---Lock

2017-12-18 14:11:34 829

转载 10_张孝祥_多线程_Callable与Future的应用

Callable Runnable Future FutureTask CompletionService

2017-12-17 21:50:24 135

原创 09_张孝祥_多线程_java5线程并发库的应用_线程池

Executors.newFixedThreadPoolExecutors.newSingleThreadExecutorExecutors.newCachedThreadPoolExecutors.newScheduledThreadPoolExecutors.newSingleThreadScheduledExecutor

2017-12-16 23:25:46 291

原创 08_张孝祥_多线程_java5原子性操作类的应用

并发库java.util.concurrent在并发编程中很常用的实用工具类。

2017-12-16 22:22:35 168

原创 06_张孝祥_多线程_ThreadLocal类及应用技巧

ThreadLocal并不是包含Map对象,而是这些特定于线程的值保存在Thread对象中,java.lang.Thread定义了变量:ThreadLocal.ThreadLocalMap threadLocals = null,当线程终止后,这些值会作为垃圾回收。ThreadLocal.ThreadLocalMap中定义Entry[] table变量,Entry类定义为Entry(ThreadLocal k,

2017-12-16 18:35:56 326

kmplayer

kmplayer

2015-04-08

Teleport_Pro_iHackSoft.com

扒网站,

2015-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除