- 博客(68)
- 资源 (7)
- 收藏
- 关注
原创 使用TensorFlow比较逻辑回归交叉熵与平方误差损失函数结果
逻辑回归通常使用交叉熵作为损失函数,而平方损失函数却很少用,原因是不好求导,而tensorflow在最优化时只许指定损失函数和最优化迭代方法即可自动求出最优解。下面对同一批样本分别用平方损失函数和交叉熵作为损失函数求最优解。#!/usr/bin/env python#-*- coding:utf8 -*-import sysimport tensorflow as tfimport n...
2019-01-30 18:22:24 1761 1
原创 损失函数L1正则化稀疏性
机器学习算法中为了防止过拟合,会在损失函数中加上惩罚因子,即为L1/L2正则化。因此最终的优化目标函数为: f(x) = L(x) + C*Reg(x) , C > 0 本文只讲解L1正则化,因此Reg(x) = |x| 首先L(x)和Reg(x)都是连续函数,因此f(x)也是连续函数;其次L(x)和Reg(x)都是凸函数,因此f(x)也是凸函数;所以f(x)是有最优解的。而|x|仅在x=0
2018-01-08 17:49:28 2716
原创 ElasticSearch常见问题
1。 启动es服务报以下错误 bin/elasticsearch 2017-12-09 10:51:58,130 main ERROR Could not register mbeans java.security.AccessControlException: access denied (“javax.management.MBeanTrustPermission” “register”)
2017-12-09 11:00:22 1308
原创 自动监控并重启服务supervise
创建服务所在目录mkdir testcd testmore run #!/bin/bash./testmore test.c#include <stdio.h>#include <stdlib.h>#include <unistd.h>int main() { int ix = 0; while (1) { printf("
2017-08-04 15:57:33 2592
原创 调用含中文参数Http接口
发送http请求,参数含有中文时,需要对参数值处理 url = "http://xxxx:8080/itemclass.php?text=" def request(spu_name): res = None try: requrl = url + urllib.quote(spu_name) req = urllib2.Request
2017-03-30 15:00:27 1663
原创 Flask Web服务开发
#!/usr/bin/env pythonfrom flask import Flaskfrom flask_wtf import FlaskFormfrom flask import render_template, requestfrom wtforms import StringField, SubmitFieldfrom wtforms.validators import Requir
2016-12-06 20:38:17 1120
原创 RPC-Thrift简单应用
Thrift是Facebook开源的一款RPC框架,使用起来非常方便。下面举一个简单的小例子。安装包下载wget http://www.apache.org/dist//thrift/0.9.3/thrift-0.9.3.tar.gz -O thrift-0.9.3.tar.gz安装这个需要可能需要先升级bisonwget http://ftp.gnu.org/gnu/bison/bison-2.5
2016-08-24 21:07:31 643
原创 running beyond physical memory limits
6/07/19 14:10:30 INFO mapreduce.Job: Task Id : attempt_1459504722049_479821_m_000041_2, Status : FAILED Container [pid=167394,containerID=container_1459504722049_479821_01_000180] is running beyond ph
2016-07-19 16:04:33 4839
原创 json字符串转化为对象
刚开始使用的是json.load() json.load(‘{\”a\”:1}’) Traceback (most recent call last): File “”, line 1, in File “/System/Library/Frameworks/Python.framework/Versions/2.7/l
2016-07-01 10:14:19 2912
原创 Python解析文件中的unicode字符
假设一个文件里的字符内容为: test = ‘\u5927\u5bb6\u597d\u6211\u662f\u4e00\u4e2a\u5fae\u5e97\u7ecf\u8425\u8005\uff0c\u4e3b\u8981\u7ecf\u8425\u4ea7\u54c1\u6709\uff0c\u7ae5\u978b\uff0c\u513f \u7ae5\u670d\uff0c\u513f\
2016-06-15 22:40:52 7093
原创 Spark程序结果包含括号的问题
一个简单的wordcount Spark程序如下所示:import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.SparkContext._/** * @author lming_08 */object WordCount { def main(args:Ar
2016-06-13 23:19:28 4607 1
原创 Spark中常见问题
Exception in thread “main” org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://argo/data/resys/mingliang/shop_diary/sparktest/WordCount/input.dat at org.apache.ha
2016-05-24 11:26:15 7642
原创 Diagnostics: Exception from container-launch
16/05/09 11:02:14 INFO mapreduce.Job: Job job_1459494184870_43303 failed with state FAILED due to: Application application_1459494184870_43303 failed 1 times due to AM Container for appattempt_14594941
2016-05-09 11:32:06 11480 3
原创 ln -s No such file or directory
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
2016-05-05 17:17:02 2980
原创 快速排序(C/C++版)
快速排序是经典的排序算法, 快速排序关键点在于轴值的选取!关于这个,一般会从两端分别取值与默认轴值进行比较,从右边找到第一个比默认值小的值,从左边找到第一个比默认值大的值,然后交换这两个“哨兵“对应的值!最终达到的效果是轴值左边的都比轴值小,右边的比轴值大!闲话少说,直接上代码#include using namespace std;void print(int a[], int
2016-03-17 23:41:36 541
原创 Pandas常用操作
Seriesimport pandas as pdSeries类说明class Series(pandas.core.base.IndexOpsMixin, pandas.core.generic.NDFrame) | One-dimensional ndarray with axis labels (including time series).help(pd.Series(a[1:,0])
2015-12-19 22:48:26 3503
原创 git常见操作
1.迁出某个文件到本地git pull origin mastergit checkout origin/master .2.查看工作区与暂存区中文件做了哪些修改?git add test.txtgit commit -m “add test.txt” #或者 git commit test.txt -m “add test.txt"git diff HEA
2015-10-28 23:23:50 848 1
原创 各语言对浮点数的截取&四舍五入等操作
截取Javapublic static String floatToStringByTruncate(float num, int remainBitNum) { String numStr = Float.toString(num); BigDecimal bd = new BigDecimal(numStr); bd = bd.setScale
2015-10-19 18:17:22 1896
原创 拉格朗日求条件极值
拉格朗日求条件极值对于无条件极值可以直接对各偏导数等于0求解或者使用梯度下降法求解,而对于条件极值,一般会先转化成拉格朗日乘数法形式,再求解。而对于不等式的约束条件,还需要转化成对偶问题进行求解 下面举一个例子,说明这一流程: http://www.moozhi.com/topic/show/54a8a261c555c08b3d59d996
2015-09-15 22:29:43 7661
原创 关于使用matplotlib-legend方法失效问题
在使用matplotlib画图时, legend方法失效,着了好长时间,才在stackoverflow上找到这篇文章http://stackoverflow.com/questions/11983024/matplotlib-legends-not-working改完之后就好了
2015-08-26 13:54:08 5361
原创 谱聚类--SpectralClustering
谱聚类一般会先对两两样本间求相似度, 然后根据相似度矩阵求出拉普拉斯矩阵,然后将每个样本映射到拉普拉斯矩阵特诊向量中,最后使用k-means聚类。scikit-learn开源包中已经有现成的接口可以使用,具体见http://scikit-learn.org/dev/modules/generated/sklearn.cluster.SpectralClustering.html#sklea
2015-06-02 21:01:45 4123
原创 Python中字符串查找效率比较
Python中字符串查找方式有多种,常见的有re.match/search or str.find用一个例子来说明各种方式的效率如下:from timeit import timeitimport redef find(string, text): if string.find(text) > -1: passdef re_find(string, t
2015-05-06 21:39:36 10032 1
原创 拟牛顿法之DFP算法
拟牛顿法(Quasi-Newton Methods)是求解非线性优化问题最有效的方法之一,于20世纪50年代由美国Argonne国家实验室的物理学家W. C. Davidon所提出来。Davidon设计的这种算法在当时看来是非线性优化领域最具创造性的发明之一。不久R. Fletcher和M. J. D. Powell证实了这种新的算法远比其他方法快速和可靠,使得非线性优化这门学科在一夜之间突飞
2015-04-26 20:55:32 5078
原创 对指定URL获取其子链接
仿照http://blog.csdn.net/lming_08/article/details/44710779里面的方法, 获取指定URL 的所需的子链接及其描述.#!/usr/bin/python# -*- coding: utf-8 -*-import sysimport urllib2import reif len(sys.argv) != 2: print
2015-03-29 20:49:10 3549
原创 对指定URL获取其titile
最近有个需求需要对指定一批URL获取其title,以便于筛选出所需要的URL,查了下网上工具挺多的。我这里使用python中的urllib或urllib包对URL 的内容提取.方法如下:#!/usr/bin/python# -*- coding: utf-8 -*-import urllib2import reu
2015-03-29 00:59:27 3440
原创 模型评估&AUC
在机器学习中评判一个模型好坏的标准有很多,常用的有准确率、召回率、AUC等。本文介绍下AUC及其计算方式。AUC常用来评估一个二元分类模型,二元分类模型通常有4中预测结局,以是否患高血压为例:真阳性(TP):诊断为有,实际上也有高血压。伪阳性(FP):诊断为有,实际却没有高血压。真阴性(TN):诊断为没有,实际上也没有高血压。伪阴性(FN):诊断为没有,实际却有高血压。#!/usr/bin/pythonimport sysdef get_auc(arr_score, arr_labe
2015-03-22 22:59:28 1823
原创 梯度下降法
梯度下降法在凸优化中应用非常广泛,常用于求凸函数极值。梯度是个向量,其形式为通常是表示函数上升最快的方向!因此,我们只需要每一步往梯度方向走一小步,最终就可以到达极值点,其表现形式为:初始点为x0, 然后往梯度的反方向移动一小步r到x1, 再次往梯度反方向移动r到x2,... ...,最终会越来越接近极值点min的。迭代时的公式为X(n+1) = X(n) - r * gra...
2015-03-15 22:57:06 1190
原创 牛顿法
看最优化的文章时总能看到牛顿法和梯度下降法等基础算法,这里对牛顿法做个总结。牛顿法一般的用途有:1、求方程的根;2、求极值求方程的根并不是所有的方程都有求根公式,或者求根公式很复杂,导致求解困难。利用牛顿法,可以迭代求解。原理是利用泰勒公式,在x0处展开,且展开到一阶,即f(x) = f(x0)+(x-x0)f'(x0)求解方程f(x)=0,即f(x0)+(x-x0)*f'(x
2015-02-01 23:33:16 1634
原创 Finding the Right Consumer: Optimizing for Conversion in Display Advertising Campaigns
这周在公司分享会上分享了《Finding the Right Consumer: Optimizing for Conversion in Display Advertising Campaigns》,下面贴出分享的主要内容。 文章参考于:http://www.cs.cmu.edu/~yandongl/papers/wsdm2012.pdf
2015-01-18 14:59:07 1244 1
原创 标准化与归一化
标准化(Standardization)是按某个维度进行标准化,例如有下面的矩阵>>> X = np.array([[ 1., -1., 2.],... [ 2., 0., 0.],... [ 0., 1., -1.]])正态分布标准化后的结果就是array([[ 0. ..., -1.22...,
2014-12-13 22:36:36 1137
原创 Python中字符串的解压缩
今天在用Streaming-Python处理一个MapReduce程序时,发现reducer失败,原因为耗费内存达到极限了!仔细查看代码时,发现有一个集合里保存着URL,而URL长度是比较长的,直接保存确实是耗费内存,于是想到用压缩存储,然后用的时候再解压,虽然处理时间增加,但是耗费内存大大降低!具体就是使用zlib模块import zlib raw_data = "hello,wor
2014-11-08 03:20:39 3918
原创 点击率校准
通常预测的点击率都是不准的,需要校准。例如,boosted trees and SVM预测结果趋于保守,即预测的概率偏向于中值;而对于NaiveBayes预测的概率,小概率趋于更小,大概率趋于更大。常用的校准方法有Binning和Pair‐Adjacent Violators (PAV);下面分别说说这两种方法。Binning思想比较简单,也容易实现。需要说明的是,通常校准算法
2014-10-18 22:07:34 5825
原创 利用scikit-learn进行FeatureSelection
1.>>> from sklearn.datasets import load_iris>>> from sklearn.feature_selection import SelectKBest>>> from sklearn.feature_selection import chi2>>> iris = load_iris()>>> X, y = iris.data, iris.
2014-09-11 19:45:34 8476 1
原创 Scala IDE黑色主题设置
网上大部分资料都是设置文本编辑区域的主题,这篇文章主要介绍如何设置UI主题。网上也有许多设置UI主题的资料,不过都是跟Eclipse相关,而Scala IDE虽然也是基于Eclipse,但还是有区别的,主要是没有Scala IDE Eclipse安装目录下没有dropins子目录。下面介绍下Scala IDE的UI主题安装方法。下载Eclipse Moonrise UI Theme 0
2014-08-18 20:20:29 3938
原创 Scala学习笔记
笔记内容比较杂!1.Scala中的单例对象使用object修饰,类似于C++中的静态类。调用其内部函数时,直接使用对象名调用,不能用new申请!2.一个文件中可以定义名称相同的类和单例对象,单例对象被称作是类的伴生对象(Companion Object)。二者可以相互访问彼此的私有成员。伴生对象可以理解为是相同名称的类的静态成员函数。3.Scala文件名不需要与
2014-08-18 00:26:48 1706
原创 Scala开发环境搭建
0.简介Scala(发音为 /ˈskɑːlə, ˈskeɪlə/)是一种多范式的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。Scala的编译模型(独立编译,动态类加载)与Java和C#一样,所以Scala代码可以调用Java类库(对于.NET实现则可调用.NET类库)。Scala包包
2014-08-04 00:28:46 3683
原创 关于Hadoop-Streaming学习中碰到的问题
Hadoop在分布式计算方面很强大,而Python在文本处理也是相当方便,那么有这两者的结合吗?有,答案就是Hadoop-Streaming。Hadoop-Streaming可以将Hadoop与主流语言结合起来,使用方便,效果很好。个人觉得Pig在处理数据集时很不方便,特别是在计算百分比等运算时,而Hadoop-Streaming是可以替代Pig的。1.Streaming固定的代码,该代码可以...
2014-07-28 20:02:59 10941
原创 R语言中碰到的问题
1.当使用cor()求相关系数时,出现以下错误:当求相关系数时,出现如下错误时:> cor(pvnum_avgwinprice$V2, pvnum_avgwinprice$V3)错误于cor(pvnum_avgwinprice$V2, pvnum_avgwinprice$V3) : 'y'必需是数值
2014-07-11 14:47:19 19313
原创 Python-sklearn学习中碰到的问题
auc = metrics.auc(fpr, tpr) File "/usr/local/lib/python2.7/site-packages/sklearn/metrics/metrics.py", line 172, in auc x, y = check_arrays(x, y) File "/usr/local/lib/python2.7/site-packages
2014-07-11 14:36:56 4038 2
基于最小二乘法估计点云的曲面法向量(PCL编程实现)
2014-03-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人