自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 【Python】python多进程,函数内print的内容没有打印出来

问题:python多进程,子函数内容没有打印出来。Simple Python Multiprocessing function doesn't output results I have this very simple function right here in which I'm trying to run and test on, however, it doesn't out...

2018-08-29 16:26:50 3301

原创 Python读写zip压缩文件

摘要: Python自带模块zipfile可以完成zip压缩文件的读写,而且使用非常方便,下面我们就来演示一下Python读写zip文件。 Python读zip文件 下面的代码给出了用Python读取zip文件,打印出压缩文件里面所有的文件,并读取压缩文件中的第一个文件。Python自带模块zipfile可以完成zip压缩文件的读写,而且使用非常方便,下面我们就来演示一下Python读写zip...

2018-08-29 10:03:24 3234

原创 python中将一个全部为int的list 转化为str的list

假设有这样一个List[1,2,3,4,5] 转化为下面这个样子[‘1’,’2’,’3’,’4’,’5’]解决方法一:a = [1,2,3]b = [ str(i) for i in a ] 解决方法二:>>> L = [1,2,3,4,5]>>> map(str, L)['1', '2', '3', '4', '5']...

2018-08-27 18:56:44 340

原创 Python标准库之xml.etree.ElementTree

http://www.cnblogs.com/ifantastic/archive/2013/04/12/3017110.html简介Element类型是一种灵活的容器对象,用于在内存中存储结构化数据。[注意]xml.etree.ElementTree模块在应对恶意结构数据时显得并不安全。每个element对象都具有以下属性:  1. tag:string对象,表示数据代表的种...

2018-08-27 17:56:57 115

原创 计算机视觉-------既然选择远方,愿你风雨兼程

01 掌握好相应的基础能力计算机视觉的理念其实与很多概念有部分重叠,包括:人工智能、数字图像处理、机器学习、深度学习、模式识别、概率图模型、科学计算以及一系列的数学计算等。所以在入门CV之前,同学们最好对基础的学术课程都有对应的了解,比如数学方面的微积分,概率学,统计学,线性代数这几门基础课程。在编程语言方面,Matlab,Python,C++,最好熟悉其中2种,因为计算机视觉离开计算机编...

2018-08-27 17:13:09 127

原创 三十分钟理解:线性插值,双线性插值Bilinear Interpolation算法

线性插值先讲一下线性插值:已知数据 (x0, y0) 与 (x1, y1),要计算 [x0, x1] 区间内某一位置 x 在直线上的y值(反过来也是一样,略): y−y0x−x0=y1−y0x1−x0y−y0x−x0=y1−y0x1−x0  y=x1−xx1−x0y0+x−x0x1−x0y1y=x1−xx1−x0y0+x−x0x1−x0y1 上面比较好理解吧,仔细看...

2018-08-27 11:49:59 828

原创 Matplotlib库学习(一)plt.plot

matplotlib库是python中实现数据处理与展示的非常优秀的类库 它提供了超过100多种的图像处理和现实方法 官网展示的一些样例 matplotlib定义了各种可视化的类 matplotlib.pyplot是绘制各种图形的命令子库,相当于快捷方式通常情况下我们使用它的别名plt import matplotlib.pyplot as plt 一些常用方法: plt.plot(...

2018-08-27 09:52:54 1369

原创 四种解决”Argument list too long”参数列表过长的办法

四种解决”Argument list too long”参数列表过长的办法转自http://hi.baidu.com/cpuramdisk/item/5aa49ce00c0757aecf2d4f24 在linux中删除大量文件时,直接用rm会出现:-bash: /bin/rm: 参数列表过长,的错误。这时可以用find命令来结合使用。例:1、rm * -rf 改为:find...

2018-08-24 15:21:47 13584

原创 paramiko上传文件到Linux

一、传输单个文件到Linux服务器 1 2 3 4 5 6 7 8 9 10 import paramiko transport = paramiko.Transport(('host',22)) transport.connect(username='root',passwor...

2018-08-24 10:42:41 322

原创 Python paramiko SFTP IOError

4down votefavoriteI am trying to create a python script that connects to my server and sends some files over via SFTP. But the problem is I keep gettingIOError: FailureDoes anyone know why this ...

2018-08-24 10:41:42 2882

原创 python进程池:multiprocessing.pool

阅读目录例1:使用进程池 例2:使用进程池(阻塞) 例3:使用进程池,并关注结果 例4:使用多个进程池在利用Python进行系统管理的时候,特别是同时操作多个文件目录,或者远程控制多台主机,并行操作可以节约大量的时间。当被操作对象数目不大时,可以直接利用multiprocessing中的Process动态成生多个进程,十几个还好,但如果是上百个,上千个目标,手动的去限制进程数量却又太过...

2018-08-23 15:44:30 101

原创 新三板公司敛财秘籍:窃取30亿条个人信息,谋利超千万

作者 | 李夏编辑 | 邢昀微博、抖音账户上莫名其妙被加粉?近日一起“史上最大规模”数据窃取案被媒体曝光,也揭开了这些平台涨粉的秘密。而这幕后黑手竟是一家新三板挂牌公司——北京瑞智华胜科技股份有限公司(下称“瑞智华胜”),其涉嫌非法窃取用户个人信息30亿条,涉及百度、腾讯、京东等全国96家互联网公司产品。8月21日,市界(ID:newsseeker)造访位于北京市海淀区西三环北...

2018-08-23 09:20:15 531

原创 京城最惨地产商:股价跌到8毛1,滞留海外曾为女星豪掷1亿

中弘股份成为一只名副其实的“仙股”。8月21日,中弘股份收盘报价为0.81元/股,但较昨日股价上涨5.19%。目前,公司已经连续5个交易日跌破1元。5日股价跌幅为18.81%,略有回升。从18年前,最高的37.66元/股,跌到如今不足1元。据了解,公司股票连续二十个交易日(不含公司股票全天停牌的交易日)的每日股票收盘价均低于股票面值(即1元),将存在被强制终止上市的风险。针对此次股票交...

2018-08-22 10:05:40 188

原创 pandas.read_csv参数详解

pandas.read_csv参数详解pandas.read_csv参数整理 读取CSV(逗号分割)文件到DataFrame也支持文件的部分导入和选择迭代更多帮助参见:http://pandas.pydata.org/pandas-docs/stable/io.html参数:filepath_or_buffer : str,pathlib。str, pathlib.Pa...

2018-08-21 10:36:48 166

原创 python解析xml文件之xml.etree.cElementTree和xml.etree.ElementTree区别和基本使用

1、解析速度:ElementTree在 Python 标准库中有两种实现。一种是纯 Python 实现例如 xml.etree.ElementTree ,另外一种是速度快一点的 xml.etree.cElementTree 。你要记住: 尽量使用 C 语言实现的那种,因为它速度更快,而且消耗的内存更少。2、调试区别使用cElementTree的话,在pycharm的debug模式下,是看不...

2018-08-21 09:37:05 1144

原创 支持向量基

支持向量基@[拉格朗日乘子法|对偶问题|KKT条件|核函数|hinge损失]存在多个超平面将样本划分的情况下,选择对训练样本局部扰动容忍性最好的。间隔与支持向量划分超平面的法向量为w=(w1;w2;...;wd)w=(w1;w2;...;wd),则超平面为wTx+b=0wTx+b=0。任一点x到超平面(w,b)距离为 r=∣∣wTx+b∣∣∥w∥.r=|wTx+b|‖w‖....

2018-08-16 16:59:08 307

原创 如何将微信群里面的所有人名导出到excel?

具体方法如下: 用微信扫一扫登录网页版微信。 在登录后,选择需要导出的微信群组,选择好微信群组之后查看群的人数。 点击鼠标右键,选中【查看源文件】 网页的下半部分会出现代码,鼠标移动把群成员的所有名字都覆盖。然后右键,选择“edit as  html”,按ctrl +A ,再按 ctrl+C。 打开Excel,新建文档,把复制的...

2018-08-16 11:20:30 21447 1

原创 感知器:神经网络的主要部分

神经网络是人工智能中最热门的话题之一,它是基于大脑结构的计算模型,是信息加工结构,具有从数据中进行学习的能力。神经网络有许多类型,最重要的是多层感知器,其中最典型的神经元模型称为感知器,本文中我们将从数学角度解读这个模型。感知器组成神经网络最主要的组成是神经元,感知器是最常用的模型。以下为感知器图解:神经元参数组合函数激活函数激活函数根据组合值产生输出。...

2018-08-15 17:49:50 513

原创 机器学习中为什么需要对数据进行归一化?

 机器学习模型被互联网行业广泛应用,如排序(参见:排序学习实践)、推荐、反作弊、定位(参见:基于朴素贝叶斯的定位算法)等。一般做机器学习应用的时候大部分时间是花费在特征处理上,其中很关键的一步就是对特征数据进行归一化,为什么要归一化呢?很多同学并未搞清楚,维基百科给出的解释:1)归一化后加快了梯度下降求最优解的速度;2)归一化有可能提高精度。下面我简单扩展解释下这两点。1 归一化为什么能提高梯...

2018-08-15 17:38:11 182

原创 RF、GBDT、XGBoost面试级整理

 由于本文是基于面试整理,因此不会过多的关注公式和推导,如果希望详细了解算法内容,敬请期待后文。      RF、GBDT和XGBoost都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。   根据个体学习器的生成方式,目前的集成学习方法大致分为两大类:即个体学习器之间存在强依赖关系、必须串行生成的序列化方...

2018-08-15 17:33:44 144

原创 支持向量机SVM推导及求解过程

    支持向量机是属于原创性、非组合的具有明显直观几何意义的分类算法,具有较高的准确率。        使用SVM算法的思路:(1)简单情况,线性可分情况,把问题转化为一个凸优化问题,可以用拉格朗日乘子法简化,然后用既有的算法解决;(2)复杂情况,线性不可分,用核函数将样本投射到高维空间,使其变成线性可分的情形,利用核函数来减少高纬度计算量。       一、SVM相关基本概念   ...

2018-08-15 17:11:39 183

原创 回归和分类区别,及模型的选择

本文主要介绍了回归问题与分类问题的不同应用场景以及它们训练算法的不同之处   1.回归问题的应用场景 回归问题通常是用来预测一个值,如预测房价、未来的天气情况等等,例如一个产品的实际价格为500元,通过回归分析预测值为499元,我们认为这是一个比较好的回归分析。一个比较常见的回归算法是线性回归算法(LR)。另外,回归分析用在神经网络上,其最上层是不需要加上softmax函数的,而是...

2018-08-15 16:31:41 1074

原创 一步一步理解GB、GBDT、xgboost

GBDT和xgboost在竞赛和工业界使用都非常频繁,能有效的应用到分类、回归、排序问题,虽然使用起来不难,但是要能完整的理解还是有一点麻烦的。本文尝试一步一步梳理GB、GBDT、xgboost,它们之间有非常紧密的联系,GBDT是以决策树(CART)为基学习器的GB算法,xgboost扩展和改进了GDBT,xgboost算法更快,准确率也相对高一些。    1. Gradient boost...

2018-08-15 13:40:35 129

原创 2018 年,哪些编程语言需求最大、最有钱途?

旨在帮助初级开发人员找到高质量工作, MyFirstITJob.com 创始人 Alexander Petkov 在本文中就开发人员在 2018 年应该考虑选择的十门编程语言给出了自己的建议,旨在帮助开发人员了解 2018 年 IT 市场将会需要什么样的编程语言,从而做出决定在哪个方面投入更多的时间和精力,也有助于开发人员了解掌握哪些内容才能走上成功的软件开发员之路,或者是掌握哪门语言才能在成功的...

2018-08-15 10:47:39 1064 1

原创 RF GBDT XGBOOST的区别与联系

Gradient boosting(GB) 机器学习中的学习算法的目标是为了优化或者说最小化loss Function, Gradient boosting的思想是迭代生多个(M个)弱的模型,然后将每个弱模型的预测结果相加,后面的模型Fm+1(x)基于前面学习模型的Fm(x)的效果生成的。Gradient boosting Decision Tree(GBDT)   GB算法中最典型的基学...

2018-08-14 17:55:05 167

原创 Overfitting怎么解决? L1和L2正则化介绍

Overfitting怎么解决? L1和L2正则化介绍 Overfitting怎么解决?Regularizatin(L1、L2正则化)、dropout、Batch Normalization、Early Stopping L2正则化:(权重衰减惩罚) 对b没有更新,W有更新。【为学习率】 所以L2正则化是减小W,也就是权重衰减(weight de...

2018-08-14 17:50:32 297

原创 LR(逻辑回归) 为什么使用sigmoid函数

sigmoid 函数上图为sigmoid函数的形式 选择sigmoid 的原因想从两方面来说: 1、 Sigmoid 函数自身的性质sigmoid 函数连续,单调递增 sigmiod 函数关于(0,0.5) 中心对称 对sigmoid函数求导  p=ex1+exp=ex1+ex   p′=p∗(1−p)p′=p∗(1−p) 计算sigmoid函数的导数非常的快速2...

2018-08-14 17:41:27 436

原创 GBDT与随机森林算法的原理以及区别

一,随机森林随机森林是一个用随机方式建立的,包含多个决策树的集成分类器。其输出的类别由各个树投票而定(如果是回归树则取平均)。假设样本总数为n,每个样本的特征数为a,则随机森林的生成过程如下:从原始样本中采用有放回抽样的方法选取n个样本; 对n个样本选取a个特征中的随机k个,用建立决策树的方法获得最佳分割点; 重复m次,获得m个决策树; 对输入样例进行预测时,每个子树都产生一个结果,...

2018-08-14 17:28:03 1086

原创 决策树ID3和C4.5的区别

主要描述里ID3和C4.5的区别和改进,C4.5的优缺点,以及信息增益与信息增益比的计算方法区别ID3使用信息增益作为特征选择的度量 C4.5使用信息增益比作为特征选择的度量信息增益 g(D,A)=H(D)−H(D|A)g(D,A)=H(D)−H(D|A) H(D)H(D)是数据集D的熵,计算公式H(D)=−∑Kk=1|Ck|Nlog|Ck|NH(D)=−∑k=1K|Ck|Nlo...

2018-08-14 17:22:32 295

原创 防止过拟合的几种常见方法

防止过拟合的处理方法何时会发生过拟合?   我们都知道,在进行数据挖掘或者机器学习模型建立的时候,因为在统计学习中,假设数据满足独立同分布(i.i.d,independently and identically distributed),即当前已产生的数据可以对未来的数据进行推测与模拟,因此都是使用历史数据建立模型,即使用已经产生的数据去训练,然后使用该模型去拟合未来的数据。但是一般独立同分...

2018-08-14 17:13:18 7400

原创 SVM如何避免过拟合

过拟合(Overfitting)表现为在训练数据上模型的预测很准,在未知数据上预测很差。过拟合主要是因为训练数据中的异常点,这些点严重偏离正常位置。我们知道,决定SVM最优分类超平面的恰恰是那些占少数的支持向量,如果支持向量中碰巧存在异常点,那么我们傻傻地让SVM去拟合这样的数据,最后的超平面就不是最优的。如图1所示,深红色线表示我们希望训练得到的最优分类超平面,黑色虚线表示由于过拟合得到的较...

2018-08-14 17:03:17 652

原创 机器学习算法岗常见笔试面试题整理

 数据库中的主键、索引和外键(数据分析岗经常问) 决策树ID3和C4.5的差别?各自优点? Boost算法 CART(回归树用平方误差最小化准则,分类树用基尼指数最小化准则) GBDT与随机森林算法的原理以及区别。 优化算法中常遇到的KKT条件?作用是? 最近邻算法KNN(分类与回归) L1和L2函数?L1和L2正则项的比较,如何解决 L1 求导困难? L1正则为何可把系数压缩...

2018-08-14 16:51:11 467

原创 数据科学个人笔记:决策树算法(ID3、C4.5、CART)

一、一些指标的定义1.熵的定义:用来表示随机变量不确定性的度量(衡量一组数据对于某一特征的不确定性程度),H(X)=-sum(pi*log(pi)),pi表示第i类数据出现的概率(所以衡量熵时要选取一个特征为度量标准)。其中熵的单位当log以2为底为比特,以e为底为纳特。0<=H(x)<=log(类别数)。当类别只取两类如0或1时(二分类问题),H(p)=(-p*log2p)+(-...

2018-08-14 11:19:25 128

原创 CUDA Tegra、GeForce、Quadro、Tesla的区别

Tegra系列产品是转为移动和嵌入式设备而设计的,如平板电脑和手机,典型的如Tegra K1,Tegra X1,TegraX2等(为嵌入式芯片,功耗低,gpu和cpu芯片在同一块硅片上)GeForce面向图像用户,典型的如NVIDIA TITAN Xp、GeForce GTX 1080等(通常用于桌面显示,价格亲民,普通大众使用的较多,也可进行科学计算,只是精确度稍低)Quadro用于专业...

2018-08-13 17:58:41 594

原创 CPU、GPU、CUDA,CuDNN 简介

一、CPU和GPU的区别CPU (Central Processing Unit) 即中央处理器 GPU (Graphics Processing Unit) 即图形处理器 GPGPU全称General Purpose GPU,即通用计算图形处理器。其中第一个“GP”通用目的(GeneralPurpose)而第二个“GP”则表示图形处理(GraphicProcess)CPU虽然有多核,但...

2018-08-13 17:33:09 117

原创 DNN与ANN的区别

1、ANN与DNN背景       传统的神经网络,也称为浅层神经网络SNN(shallow nerual network)。Deep Learning中重点研究的是深层神经网络,也称为DNN(Deep neural network,其中D是Deep的缩写。无论是SNN还是DNN都属于一类人工神经网络ANN。DNN也是机器学习(machine learning)或感知学习(perception...

2018-08-13 10:56:12 640

原创 最好的Julia语言

终于发现了最适合我的编程语言Julia 做大数据/机器学习方面的工作多年. 最为熟悉 C++, Matlab/R/Python/Java/Scala 都用过.但每种语言的体验总觉得有缺憾.一个理念: 如果不是语言专家, 那么编程语言, 仅是实现想法的工具. 更为重要的事情如何快速准确地实现功能和想法, 而不是消耗在工具本身. 1. C++    与 C 语言一样, 计算性能是公认...

2018-08-13 10:05:25 11538 1

原创 DNN与ANN的区别

Deep Learning的基本思想       假设我们有一个系统S,它有n层(S1,…Sn),它的输入是I,输出是O,形象地表示为: I =>S1=>S2=>…..=>Sn => O,如果输出O等于输入I,即输入I经过这个系统变化之后没有任何的信息损失(呵呵,大牛说,这是不可能的。信息论中有个“信息逐层丢失”的说法(信息处理不等式),设处理a信息得到b,再对b...

2018-08-10 16:39:56 13758

原创 一文读懂 CNN、DNN、RNN 内部网络结构区别

从广义上来说,NN(或是更美的DNN)确实可以认为包含了CNN、RNN这些具体的变种形式。在实际应用中,所谓的深度神经网络DNN,往往融合了多种已知的结构,包括卷积层或是LSTM单元。但是就题主的意思来看,这里的DNN应该特指全连接的神经元结构,并不包含卷积单元或是时间上的关联。因此,题主一定要将DNN、CNN、RNN等进行对比,也未尝不可。 其实,如果我们顺着神经网络技术发展的脉络,就很容易...

2018-08-10 16:37:40 285

原创 TensorFlow 卷积神经网络之使用训练好的模型识别猫狗图片

此系列的上一篇是 训练猫狗图片识别模型TensorFlow 卷积神经网络之猫狗识别,这片文章是介绍,训练后的模型应该如何使用。本文逻辑: 1. 我从网上下载了十几张猫和狗的图片,用于检验我们训练好的模型。 2. 处理我们下载的图片 3. 加载模型 4. 将图片输入模型进行检验代码如下:#coding=utf-8 import tensorflow as tf from ...

2018-08-10 16:23:09 593

提示
确定要删除当前文章?
取消 删除