- 博客(99)
- 收藏
- 关注
原创 msck修复hive分区
外部表,删除表结构后,重新创建表,此时数据还在,但是查询为空,使用该命令修复命令msck repair table table_name
2021-12-23 16:41:06 961
原创 算法题思路
1 双指针,适合单调增或单调减的题型如lc633,c=i*i+j*jpublic boolean judgeSquareSum(int c) { int i = 0, j = (int) Math.sqrt(c); while (i <= j) { int t = i * i + j * j; if (t == c) { return true; } else if (t < c) {
2020-12-10 10:46:57 177
转载 单例模式 DCL + volatile
转自:https://www.cnblogs.com/codingmengmeng/p/9846131.html我们第一次写的单例模式是下面这样的: 1 public class Singleton { 2 private static Singleton instance = null; 3 public static Singleton getInstance() { 4 if(null == instance) {
2020-08-25 17:54:06 346
原创 数组题解题思路
给定一个数组 A思路一:构造一个新的数组B,从前往后累加。即B[i] = A[0] + A[1] + ... + A[i],或B[i] = B[i - 1] + A[i] (i >= 1)可以用来求解求一个数组中最长子数组和为K的题。如leetcode 325,用一个map来代替B,达到O(n)的时间复杂度。...
2020-06-29 23:00:57 320
转载 git merge最简洁用法
一、开发分支(dev)上的代码达到上线的标准后,要合并到 master 分支git checkout devgit pullgit checkout mastergit merge devgit push -u origin master二、当master代码改动了,需要更新开发分支(dev)上的代码git checkout mastergit pullgit checkout devgit merge mastergit push -u origin dev...
2020-06-04 15:01:46 510
原创 Hive transform中的NULL值处理
在hive的transform中,输入中 NULL 值会被转换成字符串 '\N'(大写N),同时输出时 '\N' 会再次被转化为 NULL所以在transform中,判断某列为NULL实际上应该是判断该列是否等于'\N'即# coding:utf-8import sysfor line in sys.stdin: res = line.strip().split('\t...
2020-04-10 15:36:29 939 1
转载 synchronized(this)、synchronized(class)与synchronized(Object)的区别
在多线程开发中,我们经常看到synchronized(this)、synchronized(*.class)与synchronized(任意对象)这几种类型同步方法。但是是否知道这几种写法有什么区别了?下面根据代码来分析:synchronized代码块间的同步性package com.zwz.thread.demo1;public class ObjectService { ...
2020-03-24 11:34:46 278
原创 蓄水池采样 Reservoir Sampling
# coding:utf8import random# 从n个数中采样k个数def reservoir_sampling(n, k): # 所有数据 pool = [i for i in range(n)] # 前k个数据 res = [i for i in range(k)] for i in range(k, n): v = ...
2019-12-17 16:47:04 210
原创 特征工程-时间类特征
1 one_hot2 用 sin(hour*2*pi/24) cos(hour*2*pi/24) 来表示 见http://blog.davidkaleko.com/feature-engineering-cyclical-features.html
2019-11-28 18:41:12 469
转载 git commit之后,想撤销commit
写完代码后,我们一般这样git add . //添加所有文件git commit -m "本功能全部完成"执行完commit后,想撤回commit,怎么办?这样凉拌:git reset --soft HEAD^这样就成功的撤销了你的commit注意,仅仅是撤回commit操作,您写的代码仍然保留。说一下个人理解:HEAD^的意思是上...
2019-05-08 15:41:45 844
原创 crontab 用法
crontab -l在标准输出上显示当前的crontabcrontab -r移除所有的 crontab 的工作内容根据配置文件配置crontabcrontab filename
2019-05-05 11:03:14 183
原创 Graylog 搜索语法
文档链接http://docs.graylog.org/en/2.4/pages/queries.html搜索同时包含 worda和 wordb的内容query:wordaAND wordb搜索包含worda 或 wordb 的内容query:worda wordb搜索包含 “worda wordb” 短语的内容query:“worda wordb”...
2019-04-26 15:55:31 6531
原创 python dict.keys()时间复杂度
python2中,dict.keys()的时间复杂度是O(n)python3中,dict.keys()的时间复杂度是O(1)--python3待验证以下是python2的代码及运行结果import timenum = 10000dic = {}for i in range(num): dic[i] = istart = time.time()for i in ...
2019-03-28 20:19:48 2904
原创 hive使用transform 相同的key由一个reduce处理并且有序
add file word_count.py;select transform(word) using 'python word_count.py' as word,cntfrom( select word from table_a distribute by word sort by word) t0word_count.py 代码如下# codi...
2019-01-03 20:06:03 862
原创 python 字符串转datetime 时间戳转datetime 字符转转时间戳
# coding:utf8import datetime# 字符串转datetimes = '2018-10-08 23:08:18'dt = datetime.datetime.strptime(s, '%Y-%m-%d %H:%M:%S')print dt# datetime转字符串s = dt.strftime('%Y%m%d')print simport...
2018-10-09 17:25:14 1452
转载 Hive中日期处理函数
1、日期函数UNIX时间戳转日期函数:from_unixtime()函数 格式 返回值 说明 from_unixtime from_unixtime(bigint unixtime[, string format]) string 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式 hive ...
2018-08-10 19:28:30 2322
转载 python dict 排序
python 字典(dict)的特点就是无序的,按照键(key)来提取相应值(value),如果我们需要字典按值排序的话,那可以用下面的方法来进行:1 下面的是按照value的值从大到小的顺序来排序。[py] view plain copydic = {'a':31, 'bc':5, 'c':3, 'asd':4, 'aa':74, 'd':0} dict= sorted(dic.items()...
2018-06-20 15:26:39 5498
原创 pytorch rnn输入 一个batch内的序列pad到同一长度
import torch from torch.autograd import Variable from torch import nn batch_size = 4 max_length = 3 hidden_size = 2 n_layers = 1 feature_dim = 1 # container batch_in = torch.ze...
2018-03-06 21:25:03 7648 2
原创 GBDT中残差和梯度的关系
采用Square loss为损失函数时,负梯度和残差相等。不过,当我们采用Absolute loss/Huber loss等其它损失函数时,负梯度只是残差的近似。转自 http://aandds.com/blog/ensemble-gbdt.html...
2018-02-08 22:10:47 2040
原创 机器学习 偏差和方差
机器学习算法,其泛化误差可以分解为两部分,偏差(bias)和方差(variance)。偏差指的是算法的期望预测与真实预测之间的偏差程度,反应了模型本身的拟合能力;方差度量了同等大小的训练集的变动导致学习性能的变化,刻画了数据扰动所导致的影响。如下图所示,当模型越复杂时,拟合的程度就越高,模型的训练偏差就越小。但此时如果换一组数据可能模型的变化就会很大,即模型的方差很大。所以模型过于复杂的时候会导致...
2018-02-08 11:32:36 467
原创 tensorflow lstm代码
tensorflow 版本 1.2# coding=utf8import tensorflow as tfimport numpy as npimport randomfrom tensorflow.examples.tutorials.mnist import input_data# for MNIST class_num = 10class_num = 10batc
2018-02-03 21:40:58 1086
转载 机器学习算法GBDT的面试要点总结-上篇
转自 http://www.cnblogs.com/ModifyRong/p/7744987.html1.简介 gbdt全称梯度下降树,在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一,在前几年深度学习还没有大行其道之前,gbdt在各种竞赛是大放异彩。原因大概有几个,一是效果确实挺不错。二是即可以用于分类也可以用于回归。三是可以筛选特征。这三点实在是太吸引人了,
2018-01-23 13:29:39 2051
转载 逻辑回归的常见面试点总结
转自 http://www.cnblogs.com/ModifyRong/p/7739955.html1.简介 逻辑回归是面试当中非常喜欢问到的一个机器学习算法,因为表面上看逻辑回归形式上很简单,很好掌握,但是一问起来就容易懵逼。所以在面试的时候给大家的第一个建议不要说自己精通逻辑回归,非常容易被问倒,从而减分。下面总结了一些平常我在作为面试官面试别人和被别人面试的时
2018-01-23 13:28:12 13611 3
原创 决策树和lr关于线性和非线性的区别
# coding:utf8import randomimport numpy as npfrom sklearn.linear_model import LogisticRegressionfrom sklearn import treeX = []Y = []for i in range(10000): a = random.uniform(-1, 1) b =
2018-01-14 21:03:16 3828
原创 python 创建二维数组
创建一维数组a = [0] * 3print a结果[1, 1, 1]创建二维数组错误方法a = [[0] * 3] * 4print aa[0][0] = 2print a结果[[0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0]][[2, 0, 0], [2, 0, 0], [2, 0, 0], [2, 0, 0]]解释:
2018-01-13 00:10:51 1584
转载 tensorflow学习笔记: variable scope
转自 http://blog.csdn.net/u012436149/article/details/53018924variable scopetensorflow 为了更好的管理变量,提供了variable scope机制 官方解释: Variable scope object to carry defaults to provide to get_va
2017-12-02 14:37:21 400
转载 tensorflow学习笔记:variable与get_variable
转自 http://blog.csdn.net/u012436149/article/details/53696970Variabletensorflow中有两个关于variable的op,tf.Variable()与tf.get_variable()下面介绍这两个的区别tf.Variable与tf.get_variable()tf.Variable(initial_v
2017-12-02 14:31:24 599
转载 auc计算 代码
# coding=utf-8# auc值的大小可以理解为: 随机抽一个正样本和一个负样本,正样本预测值比负样本大的概率# 根据这个定义,我们可以自己实现计算aucimport randomimport timedef timeit(func): """ 装饰器,计算函数执行时间 """ def wrapper(*args, **kwargs):
2017-12-01 19:53:33 5427
原创 linux 装机命令
vim /etc/network/interfaces 配置网络service networking restart 配之后重启服务fdisk -l 显示或操作磁盘分区表
2017-11-28 15:02:04 352
原创 Google NMT 阅读笔记
原文 https://github.com/tensorflow/nmt/The encoder RNN uses zero vectors as its starting statesencoder端的rnn使用零向量作为初始状态
2017-11-28 14:03:15 3841
转载 tf.strided_slice 简介
strided_slice这个函数实际上是tf的slice函数strided_slice( input_, begin, end, strides=None, begin_mask=0, end_mask=0, ellipsis_mask=0, new_axis_mask=0, shrink_axis_mask=0,
2017-11-05 14:53:02 971
转载 并查集详解
这个文章是几年前水acm的时候转的, 当时也不知道作者是谁, 要是有人知道的话说一下吧并查集是我暑假从高手那里学到的一招,觉得真是太精妙的设计了。以前我无法解决的一类问题竟然可以用如此简单高效的方法搞定。不分享出来真是对不起party了。(party:我靠,关我嘛事啊?我跟你很熟么?)来看一个实例,杭电1232畅通工程首先在地图上给你若干个城镇,这些城镇都可
2017-10-09 16:39:56 210
转载 解决Ubuntu的root账号无法登录SSH问题-Permission denied, please try again.
有时,我们登录SSH的时候,会出现如下问题:此时,是因为系统默认禁止root用户登录ssh,此时我们可以这样解决:首先,Ctrl+C退出密码输入界面:然后输入:su -tips:一定是su -,不是su然后出现如下界面:然后,我们编辑sshd_config文件,我们输入:vi /etc/ssh/sshd_config出现如下文件编辑的界面:
2017-09-27 09:49:24 2151
原创 linux 挂载时 mount: wrong fs type, bad option, bad superblock on /dev/sdb
原因:挂载时未格式化,使用的文件系统格式不对解决方案:格式化sudo mkfs -t ext4 /dev/sdb再挂载sudo mount /dev/sdb /xxx/用df -h检查,发现已挂载
2017-09-26 21:43:55 73683 1
转载 Ubuntu Linux 永久挂载(mount)分区
一般情况下,我们想挂载一个分区的办法就是用mount命令,如我想把/dev/sda3挂载到/media/aborn/data下使用以下命令即可[python] view plain copysudo mount /dev/sda3 /media/aborn/data 但这种方法有个不好的都方是机器重启后变又得手工重新挂载.
2017-09-26 21:39:47 8761
转载 Java中的length和length()深入分析
java中的length属性是针对数组说的,比如说你声明了一个数组,想知道这个数组的长度则用到了length这个属性。java中的length()方法是针对字符串String说的,如果想看这个字符串的长度则用到length()这个方法。这篇文章将介绍几个关于Java数组的关键概念。在开始本文前先考虑以下一个问题在不使用任何带有自动补全功能IDE的情况下,如何获取一个数组
2017-09-05 21:49:26 670
原创 大整数乘法 java实现
public static String multiply(String s1, String s2) { StringBuilder sb1 = new StringBuilder(s1); StringBuilder sb2 = new StringBuilder(s2); sb1.reverse(); sb2.reverse()
2017-08-22 16:47:00 1371
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人