自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(70)
  • 收藏
  • 关注

原创 Base revisions of changed paths are mismatched,update all paths to the same base revision before cre

Base revisions of changed paths are mismatched,update all paths to the same base revision before creating diff按照提示,svn update即可。如果出现冲突:     (p)推迟, df(显示差异),e(编辑文件),m(合并),mc(我这边的冲突),tc(他们的冲突)选择(p)推迟集合然...

2018-07-01 14:00:48 965

原创 WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!

DNS SPOOFING is happening or the IP address for the hostand its host key have changed at the same time.@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@    WARNING: REMOTE HOST IDENTIFICATI...

2018-06-28 14:59:32 246

原创 push代码前确认代码的正确性

1、mvn clean package 成功2、code review3、push代码

2018-06-10 16:19:23 550

原创 Your branch and 'origin/master' have diverged, and have 1 and 3 different commits each, respectively

遇到这种报错之后想回到matser上面,则执行git fetch origingit reset --hard origin/master

2018-06-05 18:57:32 3847 1

原创 git commit -amend撤销

git commit -amend之后想撤销  git reset HEAD@{1}

2018-06-05 18:44:42 3320

原创 spark saveAsTextFile too slow

saveAsTextFile很慢,一个文件saveASText要15分钟以上,解决思路:1、配置文件:查看spark-submit的参数    如截图,查看一下这些配置是否设置的过小     2、代码(python)df.rdd.map(lambda x: (random.randint(1, 10240), x)).partitionBy(128).map(lambda (r, x): "%s"...

2018-05-21 13:11:00 2213 2

原创 hive is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [48,46, 48,10]

1、创建表create table if not exists yourtalle(`score` float, `pos` string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|';2、导入数据load data local inpath "***" overwrite into table yourtable;    导入数据格式举例:1...

2018-05-18 19:42:28 15502 2

原创 spark No module named numpy

提交spark的时候报错解决方法:1,首先pyspark尝试import numpy.发现报错:“No module named numpy”2,  上面的错误表示当下的python没有安装numpy,安装即可。3,一般情况下不需要安装的,该机器下应该有多个版本的python.whereis python找到各个版本的python,依次查看是否安装了numpy.4,找到安装numpy的python...

2018-05-01 19:01:21 4431

原创 airflow 使用入门

1、airflow文件上传     编写airflow文件之后上传,但是难以保证编写的airflow文件不出错。这时候放心大胆的上传即可,因为上传后airflow自带语法检测。可以根据提示,对文件进行重新修改后再上传。2、运行时错误    即使通过了语法检测,也难以保证运行时不报错。解决方法: 点击“Graph View”下的task的“view log”查看错误日志,根据错误日志,修改代码重新上...

2018-04-22 15:25:43 751

原创 hive posexplode

posexplode用法举例A表(shows表示访问过的城市列表,是有序的)idcitys1[tianjin,shanghai,beijing]B表(show表示访问过的城市)idcity1shanghai2sichuan假设现在需求是:判断B表中访问过的城市在A表shows中的位置。 1、由于A表的shows是数组,所以先用posexplode将A表按shows列展开 select * fro...

2018-04-22 15:10:50 5799 4

原创 hive 差集

A表idnameagecity1a18beijing2b20beijingB表idschoolcity1mbeijing3nbeijing5psichuan假设两个表的partition是city,现在的需求是求A表中存在而B表中不存在(A-B)的信息,筛选条件是"id"且city='beijing':    select A.id from( (select * from A ...

2018-04-22 14:35:02 518

原创 xgboost linux安装编译

官网安装wiki:https://xgboost.readthedocs.io/en/latest/build.htmlstep1:git clone --recursive https://github.com/dmlc/xgboostcd xgboost; make -j4 step2:             如果顺利会直接编译成功

2017-12-04 11:03:50 1942

原创 基于cnn的情感分类

情感分类是情感分析里面一个重要的方向。今天尝试用3层的cnn进行情感分类。训练集来自语料:http://tcci.ccf.org.cn/conference/2012/pages/page10_dl.html实验结果:三岁知老,今后谁家的女儿嫁给他,真是瞎了眼了 预测结果为: [1]负面评论Creating model with fresh parameters.这么美好的一个

2017-11-06 18:43:07 2102 2

原创 tensorflow实现AlexNet

AlexNet网络在2012年ImageNet比赛中取得最好成绩,简单阅读论文,下面是一些AlexNet网络的细节5个卷积层,3个全连接层,训练时间为5到6天。数据使ImageNet15 million的标注数据,分为22w个类别用的ImageNet的子集,训练集1.2million;验证集50w;测试集15wImageNet的图片的分辨率是可变的,alexnet模型把图片

2017-11-01 21:23:27 257

原创 tensorflow实现lenet5

lenet5一种典型的用来识别数字的卷积网络。当年美国大多数银行就是用它来识别支票上面的手写数字的。能够达到这种商用的地步示意图:代码:# encoding:utf-8import sysreload(sys)sys.setdefaultencoding('utf-8')import tensorflow as tfimport os #终端执行程序时设

2017-10-30 11:41:47 442

原创 tensorflow 池化操作实例 tf.nn.max_pooling

#encoding:utf-8import numpy as npimport tensorflow as tfx_image = tf.placeholder(tf.float32, shape = [4,4])x = tf.reshape(x_image, [1, 4, 4, 1 ])ksize = [1, 2, 2, 1]strides = [1, 2, 2 ,1]pad

2017-10-29 17:52:41 514

原创 tensorflow 卷积操作实例 tf.nn.conv2d

#encoding:utf-8import numpy as npimport tensorflow as tf#输入数据(图像)x_image = tf.placeholder(tf.float32, shape = [5, 5])x = tf.reshape(x_image, [1, 5, 5 ,1])#filterW_cpu = np.array([[1, 1, 1], [0

2017-10-29 17:32:11 567

原创 TensorFlow训练线性回归

输入:按照函数sin构造数据,加上一定噪声# -*- coding: UTF-8 -*-import numpy as npimport tensorflow as tfn_observations = 100xs = np.linspace(-3, 3, n_observations) # -3到3之间100个均值ys = np.sin(xs) + np.random.unifor

2017-10-29 15:03:09 276

原创 TensorFlow训练softmax回归(带tensorboard)

输入数据集:MNIST_data模型:简单的softmax回归模型。除了应用到常用的tensorflow的api,还用到了tensorflow的TensorBoard#encoding:utf-8import tensorflow as tfimport numpy as npimport input_datamnist = input_data.read_data_s

2017-10-29 13:28:09 610

原创 tf.nn.softmax_cross_entropy_with_logits

softmax_cross_entropy_with_logits(    _sentinel=None,    labels=None,    logits=None,    dim=-1,    name=None)Measures the probability error in discrete classification tasks in which

2017-10-28 21:46:26 317

原创 tf.summary.tensor_summary

tensor_summary(    name,    tensor,    summary_description=None,    collections=None,    summary_metadata=None,    family=None,    display_name=None)Outputs a Summary protocol bu

2017-10-28 21:39:38 818

原创 BM25算法 仅供自己记录学习

http://www.jianshu.com/p/1e498888f505

2017-10-26 17:44:58 401

原创 linux python ntlk安装

安装在现有的pythonpip install -U ltk

2017-10-26 10:43:20 322

原创 tensorflow 神经网络入门例子

#encoding:utf-8from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("/home/zhaohongjie/machine_learing_action/360_day3/MNIST_data", one_hot = True)import tens

2017-10-25 21:39:39 345

原创 MLP激活函数的选择

http://www.cnblogs.com/neopenx/p/4453161.htmlps:供自己后续学习

2017-10-25 11:24:24 2568

原创 正态分布/卡方分布/F分布/T分布/泊松分布

统计学三分分布http://bbs.pinggu.org/thread-3885528-1-1.html

2017-10-23 11:43:36 3038

原创 tensorflow tf.reduce_mean

# 'x' is [[1., 2.]#         [3., 4.]]tf.reduce_mean(x) ==> 2.5 #如果不指定第二个参数,那么就在所有的元素中取平均值tf.reduce_mean(x, 0) ==> [2.,  3.] #指定第二个参数为0,则第一维的元素取平均值,即每一列求平均值tf.reduce_mean(x, 1) ==> [1.5,  3.5]

2017-10-23 10:17:44 320

原创 LDA本地安装和使用实例

准备学习LDA,网上找个一些安装教程,很多教程都没有考虑本地安装的问题。但是在公司的开发环境中,很多情况下,安装工具包是需要安装到自己目录的,这样方便自己开发且不会打扰别的同事。下面介绍一些我的安装步骤第一步,保证python的版本是2.7以上,然后安装pip,安装步骤

2017-10-16 11:29:32 3638

原创 数据分析经验总结(非专业分析人员)

项目原因,两个月时间陆续做几个数据分析的工作。走了一些弯路,下面是一些经验总结1、需要保证分析的可信度,一般需要大量的自评,符合预期后才能进行下一步工作。2、宏观分析,得出整体的结论3 、细化分析,使得看报告的人能够从中找出自己想要指标。4、根据以上分析得分析结论,做总结。5、最重要的是,给出分析结论之后,要给出具体的改进方案,方法。老大们看重的应该最后一条:给

2017-09-15 10:27:45 1174

原创 vim 分行替换(块替换)

:.,+3s/a/b/g  整个语句的意思就是,从当前行到后三行把a替换为b最前面点 .表示当前行  之后是逗号 +3表示当前行向后偏移三行 s表示开始a表示待替换的内容b表示替换的内容g表示结束

2017-09-11 18:47:53 861

原创 linux python beautifulsoup安装(非root)

很多时候线上机我们是没有root的,即使用root安装自己用到的库也不合适,所以在开发过程中,很多时候会用到本地安装1、python 安装 下载:wget https://www.python.org/ftp/python/2.7.13/Python-2.7.13.tgz   解压:tar   zxvf    Python-2.7.13.tgz  配置安装到的路径:./config

2017-09-05 21:39:16 426

原创 linux svn 版本回滚

实践经验总结1、svn log查看当前最新版本和需要回滚到的版本。假设当前最近版本是:r201526;需要回滚到的版本是:r197364 2、如果本地的代码和版本r201526一致(无diff)这种情况下:svn merge -r 201526:197364 .svn ci -m "roll back to r197364"3、如果本地的代码和版本

2017-08-31 14:39:53 502

原创 word2vec安装使用教程

1、下载word2vec工具包,http://download.csdn.net/download/hortond/80957032、下载之后解压,tar -zxvf word2vec-2014-10-29.tar.gz3、安装,make4、验证时候make成功5、./word2vec得到输出:         6、简单训练一个模型   ./word2vec -

2017-08-22 16:12:53 1855

原创 tf.flags.DEFINE_string

tf.flags.DEFINE_string("test_file", "./test_data/test.recency_corpus.0206", "test file")tf.flags.DEFINE_string("test_file_result", "./test_data/test.recency_corpus.0206.result.2", "test file")

2017-08-21 11:53:00 3537

原创 无偏估计

无偏估计就是:抽样的样本均值的期望,接近真实的期望——就是无偏的。

2017-08-14 11:43:22 456

原创 feedforward neural networks 和 recurrent neural networks的概念

The neural networks where the output from one layer is used as input to the next layer. Such networks are called feedforward neural networks. This means there are no loops in the network - information

2017-08-13 21:14:10 714

原创 神经网络 隐藏层 hidden layer名字的意思

As mentioned earlier, the leftmost layer in this network is called the input layer, and the neurons within the layer are called input neurons. The rightmost or output layer contains the output neu

2017-08-13 20:37:59 5654

原创 scala 映射map

一、构造一个不可变的Map[string, Int].其值不能改变var scores = Map("Alice"->10)二、构造一个可变映射val scores1 =scala.collection.mutable.Map("Alice"->10)三、从一个空的映射开始,构建一个映射val scores2 =scala.collection.mu

2017-08-12 16:58:39 296

原创 scala 数组和数组缓冲

一、数组(定长数组)scala中,如果你需要一个长度不变的数组,即定长数组:val nums = new Array[Int](10)一、数组缓冲(变长数组)scala中,如果需要那种按需要变化的数组,即变长数组:

2017-08-12 16:35:45 875

原创 awk 时间选取

实际操作经验:比如接到需求,选取10之前的日志,写python脚本后者shell脚本代价还是稍微大一些,其实很简单日志格式: 2017-08-02 10:38:01:5152017-08-02 10:38:01:5152017-08-02 10:38:01:5152017-08-02 10:38:01:5152017-08-02 10:38:01:5152017-08-02

2017-08-11 16:35:35 335

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除