wangfenghui132-CSDN博客

原创 python 多进程按天打印日志

encoding: utf-8import osimport timeimport logging“”"重写FileHandler类，用于多线程中日志按时间间隔分割“”"class SafeFileHandler(logging.FileHandler):def init(self, filename, mode, timemode=“day”):“”"Use the specified filename for streamed logging:param filename::pa

2020-07-24 19:52:43 395

转载 hive强制走map reduce

hive 0.10.0为了执行效率考虑，简单的查询，就是只是select，不带count,sum,group by这样的，都不走map/reduce，直接读取hdfs文件进行filter过滤。1、本地模式下，hive可以简单的读取目录路径下的数据，然后输出格式化后的数据到控制台，比如有本地员工employee，当执行 select * from employee 时，直接将文件中数据格式化输出。...

2019-06-14 19:13:03 780

原创 spark数据倾斜处理

1、在没有groupby reduceby的情况下，可以将原始数据repartition()一下，增加task的数量。2、如果存在groupby reduceby的情况，如果只是统计key的数量，可以在key前面加上随机数，将key再细化，可以明显提高处理速度。3、如果存在groupby的情况，要统计某个key的所有数据，可以使用hive先进行预处理，下下策做数据过滤。其他暂时好像还没好的方法...

2019-06-12 12:19:50 296

转载 C++虚函数的作用

http://c.biancheng.net/cpp/biancheng/view/244.html

2018-03-28 15:48:38 216

原创指数分布族的后验概率函数都可以是logistic/sigmod形式

logistic regression的鲁棒性较强，针对样本的不同分布都可以得到一个相当不错的效果。在Andrew Ng的课程里面说过，logistic function可以用来做样本符合指数分布族的后验概率函数。三年前的自己怎么都想不通为什么，还抱着一本广义线性模型翻来覆去的看，也没看出个端倪。想想自己学习知识也真是不够系统的。前两天又看到这个定义，恍然大悟。指数分布族的表现形式参考该链

2018-01-03 15:29:52 1349

原创 python unexpected unindent

以前用sublim经常会出现这个问题，但是反复对照了多次，没有缩进问题但仍然是这个错误。然后自己就妥协了，重新写一遍，就没有错了。经常会出现这种情况，后来换成了VSCode，这种情况的出现少了好多。今天用VSCode的时候又出现了这个错误，以后可能还会出现很多这种情况，所以必须要把这个问题解决了，不然每次都重写代码是不可能的。我首先在用户设置里面将editor.renderWhitespac

2018-01-03 13:31:50 6627

转载移动硬盘使用驱动器X：中的光盘之前需要将其格式化的解决办法

在linux下使用了 sudo ntfsfix /dev/sdc1无效。我的是ntfs系统。然后在windows下修复成功了。 windows的命令应该是：chkdsk F: /f

2017-12-18 15:37:13 913

转载 linux 移动硬盘文件无法改变权限

原文地址：让linux挂载的移动硬盘具有执行权限。本文试图通过探求达到让linux系统挂载的移动硬盘具有可执行权限之目的的途径来梳理有关linux系统设备挂载、用户和群组、以及文档权限方面的基础知识。一、提出问题当插入一个windows分区格式的移动硬盘或者U盘时，linux系统自动挂载该移动硬盘到/media目录下，通过ls -al查看其权限，显示为：drwx——，证明我们可以进入到该盘符目录

2017-12-14 11:56:31 3883

原创 linux 下的path变量

在linux下面经常用到path这个变量，比如你在终端编译一些命令的时候，经常提示一些.o文件找不到，其中的一种可能就是.o文件所在的路径没有加入path里面。还有可能就是没有ldconfig，这种情况参考上篇转载的文档。当你打开终端的时候，就path这个变量来说，肯定是从本地的文件.bashrc或者.bash_profile文件初始化（这点存在争议，自己不太确定是从哪个文件初始化，以后查清楚了再

2017-11-08 16:14:47 338

转载 "error while loading shared libraries: xxx.so.x" 错误的原因和解决办法

一般我们在Linux下执行某些外部程序的时候可能会提示找不到共享库的错误, 比如:tmux: error while loading shared libraries: libevent-1.4.so.2: cannot open shared object file: No such file or directory原因一般有两个, 一个是操作系统里确实没有包含该共

2017-10-28 13:42:20 336

原创 C++ typedef struct 引起的expected unqualified-id before...错误

环境ubuntu 14.04 自己写的一个C++小程序，在定义结构体的时候，使用了typedef struct structName{...};结果一直提示expected unqualified-id before错误，就是在对structName里面的成员进行赋值的时候提示的这个错误。在C++中说的很清楚，定义结构体的时候typedef 可有可无。所以为了跟c编码一致，我就加了typede

2017-10-18 15:54:01 18524

原创从损失函数谈一谈adaboost和GBDT和xgboost的区别

adaboost和GBDT和xgboost在损失函数的最优化方法是有很多不同的，三者的不同之处其实就在于最优化方法的不同（这样说不知道是否妥当，至少站在这个角度的我认为是正确的，多年后可能发现这个观点不太妥当）。adaboost在李航博士的《统计学习基础》里面用加法模型和向前算法解释了权值更新策略。在解释的过程中，样本权值更新和弱分类器权值的求取是直接通过偏导数等于零来计算的，如果记不清楚的可以回

2017-09-07 23:10:17 8910

原创 Logistic Regression的决策超平面

深度学习中偏置（阈值）不参与正则化。这时候我就想到了逻辑回归和svm。 svm和逻辑回归都是用来做分类的，而且就以机器学习的角度去讲（先不从统计学分析）他们都是在找一个决策超平面。但是一个超平面的表现方式多种多样，法向量的模长不同表现方式就不同。所以如果要找到最终决策超平面的一个形式，需要限定法向量的模长。在svm中将法向量的模长设定为了一个特殊的值——最小函数距离的绝对值。通过拉

2017-08-31 10:31:32 3029

转载机器学习如何防止过拟合

https://www.zhihu.com/question/59201590/answer/167392763

2017-08-29 16:29:35 297

转载机器学习中的损失函数

损失函数（loss function）是用来估量你模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项，通常可以表示成如下式子：其中，前面的均值函数表示的是经验风险函数，L代表的是损失函数，后面

2017-08-27 15:20:56 266

原创使用统计学习计算选出所有牌有效且没有无效牌的概率

题目：桌面上有六张扣着的牌，其中三张牌的信息是有效的，三张牌的信息是无效的。一个人在不知道有多少张有效信息牌数的情况下，让他一次性选择 N 张牌，请问他一次性选出所有有效牌且没有无效牌的概率是多少？第一次算的是C（3,n）/C(6,n)，当然这道题目最终想要的应该是一个值才对，但是问题来了，按照统计学习的思想，题目中并没有给出先验分布，也就是说N服从什么分布，如果N服从均匀分布，那么结果就是1/6*

2017-08-21 15:49:56 490

原创补码——为cpu运算产生的补码

以下代码的执行结果是().intmain(){ inti=-2147483648; returnprintf("%d,%d,%d,%d",~i,-i,1-i,-1-i);}链接：https://www.nowcoder.com/questionTerminal/5f5f30bea94748fe903ff5616e73de00

2017-08-20 23:11:50 1533

原创《编程之美》-求数组的子数组之和的最大值错误

12年阅读的《编程之美》，那时候的《剑指offer》可能还没有出来，或者刚印刷不久。我的博客原文：http://www.cnblogs.com/2284275841qq/archive/2012/09/17/2689754.html 我的博客园里面记录了书中的一个错误，好多年没有翻看那本书了，不知道现在那个问题纠正了没有，当时仔细看的时候，貌似发现里面的错误不止一两处，记录下来的现在翻

2017-08-09 11:13:35 276

原创读者写者问题

这篇文章参考了该链接http://blog.sina.cn/dpool/blog/s/blog_a3eacdb20101ct0c.html2.读者—写者问题读者—写者问题（Readers-Writers problem）也是一个经典的并发程序设计问题，是经常出现的一种同步问题。计算机系统中的数据（文件、记录）常被多个进程共享，但其中某些进程可能只要求读数据（称为读者Reader）；另一些进程

2017-08-08 23:07:27 792

转载 linux下python调试

之前一直在window下写Python脚本，习惯用eclipse调试编辑，突然换到在linux环境下，有点不适应。。。python有自带的pdb库，可以实现简单的调试功能，基本命令与gdb类似，不过功能不会有gdb那么强大，pdb主要支持多断点设置（可条件设置），代码级单步调试，查看堆栈信息，代码查看，post-mortem调试，详细信息可以查看： http://docs.pyth

2017-08-08 15:58:17 421

原创 Ubuntu16.04开机死循环

在项目顺利进展中，boss要求下周五汇报。然后机器很任性的开始登录之后再次返回登录页面。作为一个老鸟，这种情况我见得多了。之前也有篇博客介绍双系统开机死机的。就直接说这个问题吧，我当时使用watch nvidia-smi，发现显卡驱动不见了。所以这应该也就是显卡驱动故障的问题。然后卸载驱动 sudo nvidia-uninstall, 界面会提示一些问题，然后直接卸载就行。这时候重

2017-07-29 17:04:02 2531

转载目标检测的图像特征提取之（一）HOG特征

转载地址：http://blog.csdn.net/zouxy09/article/details/79293481、HOG特征：方向梯度直方图（Histogram of Oriented Gradient, HOG）特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被

2017-07-25 19:46:21 312

原创让你惊艳的PCA

我一直误以为自己记述了这个历程，今天翻开博客发现竟然没有任何记录。事情从很早前的一个失眠的夜晚说起，一个数据集假设有d个特征属性，但是我想使用d’ < d个特征属性来尽可能的表示这个特征，那我要怎么做，那么我如何尽可能多的保留原始数据的信息呢。暂且以二维数据d=2为例，后面会扩展到多维d > 2。如下图所示，这些二维的数据，可以通过两个坐标轴的数值完完全全的反映数据的信息。那么我能不能通过一个数

2017-06-11 22:36:13 404

原创 ubuntu下 python链接mysql

参考了网上的东西，就不一一列举参考内容了。进入root 权限下apt-get install mysql-serverapt-get install mysql-client创建数据库mysql -u root -p passward 链接数据库create database basenameuse basename如果数据库存在要进行改动可以直接

2017-01-09 10:52:13 409

原创 Torch Threads

Torch Threads最近在读openface源码的时候，对里面的线程不怎么清楚。然后就到github上读了下说明。Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键简介你可能会想为什么另外开发一个基于lua的线程包？其实就我所知，目前存在的线程包作用十分有限，仅仅

2016-11-09 13:25:36 1103

转载数字1到字符串0001的转换

【Matlab】实现数字1到字符串0001的转换问题描述：最近在批量修改文件名的时候需要确保文件名格式为0001.jpg、0002.jpg、......、1345.jpg。所以需要将数字1转换为字符串0001，对于这种批量处理的方法，记录一下实现代码，备忘。方法一：imagename=num2str(1,'%04d');imagename=strcat(

2016-11-01 23:17:53 8660

转载 vim Another program may be editing the same file.

使用vim进行编辑文件的时候，机器卡死了。然后开机重启，再次进行vim编辑的时候，总是不能保存，提示“readonly”。当时查看了文件权限，发现文件是可以读写操作的。当时就有点迷糊，后来再次进行编辑的时候注意到在编辑之前提示：Another program may be editing the same file，才想起来可能上次卡死之后，存在临时文件.swp文件，然后将.swp删除，就可以继续

2016-09-09 15:12:15 6335

转载 SSH sshd_config

sshd配置文件/etc/ssh/sshd_config# 1. 关于 SSH Server 的整体设定，包含使用的port 啦，以及使用的密码演算方式Port 22　　　　　　　　　　# SSH 预设使用 22 这个 port，您也可以使用多的port ！　　　　　　　　　　　　　 # 亦即重复使用 port 这个设定项目即可！Protocol 2,1　　　　　　　 # 选择

2016-09-08 22:29:13 565

原创 error lnk 2019

错误 19 error LNK2019: 无法解析的外部符号 __imp__PLAY_StopDataRecord@4，该符号在函数 "public: void __thiscall CAviConvert_DemoDlg::StopConvert(void)" (?StopConvert@CAviConvert_DemoDlg@@QAEXXZ) 中被引用E:\General_PlaySD

2016-05-17 21:59:35 414

原创 Ubuntu14.04安装搜狗拼音输入法开机死机

Ubuntu14.04安装搜狗拼音输入法开机死机

2016-01-24 15:49:51 1998

原创从DeepLearnToolbox-master看CNN

卷积神经网络揭开卷积神经网络神秘的面纱，发现CNN也不过如此，就像对普通NN一样，第一步了解网络结构，第二步了解节点计算方法，第三步反向调节误差。就可以完全认识这个模型了。从网上看的大部分资料感觉很少有能够说清楚的，CNN确实原本也是一个比较难说明白的模型，所以从大牛的代码来看CNN会更清晰。一、 CNN结构

2015-12-05 23:21:33 3148

原创线性判别函数

最近看到线性判别分析LDA，然后发现网上有少量的文章说线性判别函数和LDA很相似，当时就感觉虽然名字很像，但这完全是两个不相关的模型。所以就把这些东西详细地区别了一下。一、线性判别函数1、函数是对模式进行分类的准则函数，因此非常明显线性判别函数是用来进行模式识别的。若分属于ω1，ω2的两类模式可用一方程d(X) =0来划分，那么称d(X) 为判别函数，或称判决函数、决策函数。例

2015-12-01 16:10:57 11121

转载线性判别分析（Linear Discriminant Analysis）

1. 问题之前我们讨论的PCA、ICA也好，对样本数据来言，可以是没有类别标签y的。回想我们做回归时，如果特征太多，那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维，但PCA没有将类别标签考虑进去，属于无监督的。比如回到上次提出的文档中含有“learn”和“study”的问题，使用PCA后，也许可以将这两个特征合并为一个，降了维度。但假设我们的

2015-11-30 13:56:13 572

转载 LDA算法入门

摘自：http://blog.csdn.net/warmyellow/article/details/5454943一． LDA算法概述：线性判别式分析(LDA)，也叫做Fisher线性判别(Fisher Linear Discriminant ,FLD)，是模式识别的经典算法，它是在1996年由Belhumeur引入模式识别和人工智能领域的。性鉴别分析的基本思想是将高维的模式

2015-11-29 21:00:57 639

原创混合高斯模型GMM和EM算法

一、混合高斯模型通过密度函数的线性合并获取未知的p(X)模型。形式如下：即假设密度函数是由多个高斯密度函数组合而成，为第z个高斯密度函数，为第z个高斯密度函数占的权重（或者叫做概率）。用上述模型可以逼近任何连续密度函数，只要有足够的高斯密度函数和适当的参数。在建立模型的时候，我们首先要确定的是，其中、中的和是我们需要求得的参数。通过最大似然法

2015-11-15 14:35:12 754

原创离散型Hopfield神经网络在联想和识别上的应用

一、离散型Hopfield处理数字图片，并比较外积法直接求得的网络和通过自带工具箱newhop函数创建的网络有何不同程序如下：clearclcload data1 array_oneload data2 array_two%这里加载的两个数组都是10X10的数组，里面的值为-1和+1两种情况。据目前对离散型Hopfield的使用，数据一般都是-1或者+1，尚未见到有0或者+

2015-05-05 15:49:07 3715

原创离散型Hopfield神经网络

以后要养成写博客的习惯，把学习到的东西总结一下。一、离散型Hopfield神经网络结构离散型hop的结构是一个没有自环的全连接无向图，也就是权值满足Wij=Wji，Wii=0。这一点和玻尔兹曼机BM很像。结构图如下从上图可能不太好看出来，但是只要记住Hop的结构是一个全连接没有自环的无向图就可以了。注意Hop属于那种不分层的神经网络，因为没有层次可言。二、输入输出和

2015-05-04 12:43:11 5271

原创 Matlab归一化

提起数据的归一化处理，其实有好多种方法，大多都是根据自己需要的来进行初始化。根据归一化后的数据是分布在0-1之间还是分布在-1到+1之间，归一化方法基本可以分成两类。第一种方法，某个属性的最大值max，最小值min，对每个属性的值x做如下处理normalizedx=（x-min）/(max-min);这样normalizedx就会分布在0-1之间。这种归一化方法是线性的归一

2015-04-28 12:58:22 8222 1

原创无法启动程序 “E:\练习DLL程序\DLLtest\Debug\DLLtest.dll”

最近尝试这写了一个DLL程序，基本上全部是按照书上的要求进行写的，但还是出现了错误。我想着应该很正常吧，所谓“纸上得来终觉浅，绝知此事要躬行”。其中出现的错误就是“无法启动程序 “E:\练习DLL程序\DLLtest\Debug\DLLtest.dll” ”。我觉得事先需要说明的一点是：DLLtest是我建的DLL项目，test是我建的需要用到动态链接库DLLtest的项目。

2014-10-28 20:43:52 6033 2