自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(99)
  • 收藏
  • 关注

原创 msck修复hive分区

外部表,删除表结构后,重新创建表,此时数据还在,但是查询为空,使用该命令修复命令msck repair table table_name

2021-12-23 16:41:06 961

原创 算法题思路

1 双指针,适合单调增或单调减的题型如lc633,c=i*i+j*jpublic boolean judgeSquareSum(int c) { int i = 0, j = (int) Math.sqrt(c); while (i <= j) { int t = i * i + j * j; if (t == c) { return true; } else if (t < c) {

2020-12-10 10:46:57 177

转载 单例模式 DCL + volatile

转自:https://www.cnblogs.com/codingmengmeng/p/9846131.html我们第一次写的单例模式是下面这样的: 1 public class Singleton { 2 private static Singleton instance = null; 3 public static Singleton getInstance() { 4 if(null == instance) {

2020-08-25 17:54:06 346

原创 数组题解题思路

给定一个数组 A思路一:构造一个新的数组B,从前往后累加。即B[i] = A[0] + A[1] + ... + A[i],或B[i] = B[i - 1] + A[i] (i >= 1)可以用来求解求一个数组中最长子数组和为K的题。如leetcode 325,用一个map来代替B,达到O(n)的时间复杂度。...

2020-06-29 23:00:57 320

转载 git merge最简洁用法

一、开发分支(dev)上的代码达到上线的标准后,要合并到 master 分支git checkout devgit pullgit checkout mastergit merge devgit push -u origin master二、当master代码改动了,需要更新开发分支(dev)上的代码git checkout mastergit pullgit checkout devgit merge mastergit push -u origin dev...

2020-06-04 15:01:46 510

原创 Hive transform中的NULL值处理

在hive的transform中,输入中 NULL 值会被转换成字符串 '\N'(大写N),同时输出时 '\N' 会再次被转化为 NULL所以在transform中,判断某列为NULL实际上应该是判断该列是否等于'\N'即# coding:utf-8import sysfor line in sys.stdin: res = line.strip().split('\t...

2020-04-10 15:36:29 939 1

转载 synchronized(this)、synchronized(class)与synchronized(Object)的区别

在多线程开发中,我们经常看到synchronized(this)、synchronized(*.class)与synchronized(任意对象)这几种类型同步方法。但是是否知道这几种写法有什么区别了?下面根据代码来分析:synchronized代码块间的同步性package com.zwz.thread.demo1;public class ObjectService { ...

2020-03-24 11:34:46 278

原创 蓄水池采样 Reservoir Sampling

# coding:utf8import random# 从n个数中采样k个数def reservoir_sampling(n, k): # 所有数据 pool = [i for i in range(n)] # 前k个数据 res = [i for i in range(k)] for i in range(k, n): v = ...

2019-12-17 16:47:04 210

原创 特征工程-时间类特征

1 one_hot2 用 sin(hour*2*pi/24) cos(hour*2*pi/24) 来表示 见http://blog.davidkaleko.com/feature-engineering-cyclical-features.html

2019-11-28 18:41:12 469

转载 git commit之后,想撤销commit

写完代码后,我们一般这样git add . //添加所有文件git commit -m "本功能全部完成"执行完commit后,想撤回commit,怎么办?这样凉拌:git reset --soft HEAD^这样就成功的撤销了你的commit注意,仅仅是撤回commit操作,您写的代码仍然保留。说一下个人理解:HEAD^的意思是上...

2019-05-08 15:41:45 844

原创 crontab 用法

crontab -l在标准输出上显示当前的crontabcrontab -r移除所有的 crontab 的工作内容根据配置文件配置crontabcrontab filename

2019-05-05 11:03:14 183

原创 Graylog 搜索语法

文档链接http://docs.graylog.org/en/2.4/pages/queries.html搜索同时包含 worda和 wordb的内容query:wordaAND wordb搜索包含worda 或 wordb 的内容query:worda wordb搜索包含 “worda wordb” 短语的内容query:“worda wordb”...

2019-04-26 15:55:31 6531

原创 python dict.keys()时间复杂度

python2中,dict.keys()的时间复杂度是O(n)python3中,dict.keys()的时间复杂度是O(1)--python3待验证以下是python2的代码及运行结果import timenum = 10000dic = {}for i in range(num): dic[i] = istart = time.time()for i in ...

2019-03-28 20:19:48 2904

转载 Linux 查看当前目录大小

du -h --max-depth=1 ./

2019-02-26 09:53:41 32153

转载 使用grep指令在当前目录下所有文件中搜索指定文本

grep -r "待查找内容" ./

2019-01-11 16:13:31 7101

原创 hive使用transform 相同的key由一个reduce处理并且有序

add file word_count.py;select transform(word) using 'python word_count.py' as word,cntfrom( select word from table_a distribute by word sort by word) t0word_count.py 代码如下# codi...

2019-01-03 20:06:03 862

原创 pycharm 设置行长度

pycharm设置行长度

2018-11-28 15:36:13 14621 1

原创 python 字符串转datetime 时间戳转datetime 字符转转时间戳

# coding:utf8import datetime# 字符串转datetimes = '2018-10-08 23:08:18'dt = datetime.datetime.strptime(s, '%Y-%m-%d %H:%M:%S')print dt# datetime转字符串s = dt.strftime('%Y%m%d')print simport...

2018-10-09 17:25:14 1452

转载 Hive中日期处理函数

1、日期函数UNIX时间戳转日期函数:from_unixtime()函数 格式 返回值 说明 from_unixtime from_unixtime(bigint unixtime[, string format]) string 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式 hive ...

2018-08-10 19:28:30 2322

转载 python dict 排序

python 字典(dict)的特点就是无序的,按照键(key)来提取相应值(value),如果我们需要字典按值排序的话,那可以用下面的方法来进行:1 下面的是按照value的值从大到小的顺序来排序。[py] view plain copydic = {'a':31, 'bc':5, 'c':3, 'asd':4, 'aa':74, 'd':0}  dict= sorted(dic.items()...

2018-06-20 15:26:39 5498

原创 pytorch rnn输入 一个batch内的序列pad到同一长度

import torch from torch.autograd import Variable from torch import nn batch_size = 4 max_length = 3 hidden_size = 2 n_layers = 1 feature_dim = 1 # container batch_in = torch.ze...

2018-03-06 21:25:03 7648 2

原创 GBDT中残差和梯度的关系

采用Square loss为损失函数时,负梯度和残差相等。不过,当我们采用Absolute loss/Huber loss等其它损失函数时,负梯度只是残差的近似。转自 http://aandds.com/blog/ensemble-gbdt.html...

2018-02-08 22:10:47 2040

原创 机器学习 偏差和方差

机器学习算法,其泛化误差可以分解为两部分,偏差(bias)和方差(variance)。偏差指的是算法的期望预测与真实预测之间的偏差程度,反应了模型本身的拟合能力;方差度量了同等大小的训练集的变动导致学习性能的变化,刻画了数据扰动所导致的影响。如下图所示,当模型越复杂时,拟合的程度就越高,模型的训练偏差就越小。但此时如果换一组数据可能模型的变化就会很大,即模型的方差很大。所以模型过于复杂的时候会导致...

2018-02-08 11:32:36 467

原创 tensorflow lstm代码

tensorflow 版本 1.2# coding=utf8import tensorflow as tfimport numpy as npimport randomfrom tensorflow.examples.tutorials.mnist import input_data# for MNIST class_num = 10class_num = 10batc

2018-02-03 21:40:58 1086

转载 机器学习算法GBDT的面试要点总结-上篇

转自 http://www.cnblogs.com/ModifyRong/p/7744987.html1.简介    gbdt全称梯度下降树,在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一,在前几年深度学习还没有大行其道之前,gbdt在各种竞赛是大放异彩。原因大概有几个,一是效果确实挺不错。二是即可以用于分类也可以用于回归。三是可以筛选特征。这三点实在是太吸引人了,

2018-01-23 13:29:39 2051

转载 逻辑回归的常见面试点总结

转自 http://www.cnblogs.com/ModifyRong/p/7739955.html1.简介      逻辑回归是面试当中非常喜欢问到的一个机器学习算法,因为表面上看逻辑回归形式上很简单,很好掌握,但是一问起来就容易懵逼。所以在面试的时候给大家的第一个建议不要说自己精通逻辑回归,非常容易被问倒,从而减分。下面总结了一些平常我在作为面试官面试别人和被别人面试的时

2018-01-23 13:28:12 13611 3

原创 决策树和lr关于线性和非线性的区别

# coding:utf8import randomimport numpy as npfrom sklearn.linear_model import LogisticRegressionfrom sklearn import treeX = []Y = []for i in range(10000): a = random.uniform(-1, 1) b =

2018-01-14 21:03:16 3828

原创 python 创建二维数组

创建一维数组a = [0] * 3print a结果[1, 1, 1]创建二维数组错误方法a = [[0] * 3] * 4print aa[0][0] = 2print a结果[[0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0]][[2, 0, 0], [2, 0, 0], [2, 0, 0], [2, 0, 0]]解释:

2018-01-13 00:10:51 1584

转载 tensorflow学习笔记: variable scope

转自 http://blog.csdn.net/u012436149/article/details/53018924variable scopetensorflow 为了更好的管理变量,提供了variable scope机制 官方解释: Variable scope object to carry defaults to provide to get_va

2017-12-02 14:37:21 400

转载 tensorflow学习笔记:variable与get_variable

转自 http://blog.csdn.net/u012436149/article/details/53696970Variabletensorflow中有两个关于variable的op,tf.Variable()与tf.get_variable()下面介绍这两个的区别tf.Variable与tf.get_variable()tf.Variable(initial_v

2017-12-02 14:31:24 599

转载 auc计算 代码

#  coding=utf-8#  auc值的大小可以理解为: 随机抽一个正样本和一个负样本,正样本预测值比负样本大的概率# 根据这个定义,我们可以自己实现计算aucimport randomimport timedef timeit(func): """ 装饰器,计算函数执行时间 """ def wrapper(*args, **kwargs):

2017-12-01 19:53:33 5427

原创 linux 装机命令

vim /etc/network/interfaces  配置网络service networking restart 配之后重启服务fdisk -l 显示或操作磁盘分区表

2017-11-28 15:02:04 352

原创 Google NMT 阅读笔记

原文 https://github.com/tensorflow/nmt/The encoder RNN uses zero vectors as its starting statesencoder端的rnn使用零向量作为初始状态

2017-11-28 14:03:15 3841

转载 tf.strided_slice 简介

strided_slice这个函数实际上是tf的slice函数strided_slice( input_, begin, end, strides=None, begin_mask=0, end_mask=0, ellipsis_mask=0, new_axis_mask=0, shrink_axis_mask=0,

2017-11-05 14:53:02 971

转载 并查集详解

这个文章是几年前水acm的时候转的, 当时也不知道作者是谁, 要是有人知道的话说一下吧并查集是我暑假从高手那里学到的一招,觉得真是太精妙的设计了。以前我无法解决的一类问题竟然可以用如此简单高效的方法搞定。不分享出来真是对不起party了。(party:我靠,关我嘛事啊?我跟你很熟么?)来看一个实例,杭电1232畅通工程首先在地图上给你若干个城镇,这些城镇都可

2017-10-09 16:39:56 210

转载 解决Ubuntu的root账号无法登录SSH问题-Permission denied, please try again.

有时,我们登录SSH的时候,会出现如下问题:此时,是因为系统默认禁止root用户登录ssh,此时我们可以这样解决:首先,Ctrl+C退出密码输入界面:然后输入:su -tips:一定是su -,不是su然后出现如下界面:然后,我们编辑sshd_config文件,我们输入:vi /etc/ssh/sshd_config出现如下文件编辑的界面:

2017-09-27 09:49:24 2151

原创 linux 挂载时 mount: wrong fs type, bad option, bad superblock on /dev/sdb

原因:挂载时未格式化,使用的文件系统格式不对解决方案:格式化sudo mkfs -t ext4 /dev/sdb再挂载sudo mount /dev/sdb /xxx/用df -h检查,发现已挂载

2017-09-26 21:43:55 73683 1

转载 Ubuntu Linux 永久挂载(mount)分区

一般情况下,我们想挂载一个分区的办法就是用mount命令,如我想把/dev/sda3挂载到/media/aborn/data下使用以下命令即可[python] view plain copysudo mount /dev/sda3  /media/aborn/data  但这种方法有个不好的都方是机器重启后变又得手工重新挂载.

2017-09-26 21:39:47 8761

转载 Java中的length和length()深入分析

java中的length属性是针对数组说的,比如说你声明了一个数组,想知道这个数组的长度则用到了length这个属性。java中的length()方法是针对字符串String说的,如果想看这个字符串的长度则用到length()这个方法。这篇文章将介绍几个关于Java数组的关键概念。在开始本文前先考虑以下一个问题在不使用任何带有自动补全功能IDE的情况下,如何获取一个数组

2017-09-05 21:49:26 670

原创 大整数乘法 java实现

public static String multiply(String s1, String s2) { StringBuilder sb1 = new StringBuilder(s1); StringBuilder sb2 = new StringBuilder(s2); sb1.reverse(); sb2.reverse()

2017-08-22 16:47:00 1371

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除