lming_08-CSDN博客

原创使用TensorFlow比较逻辑回归交叉熵与平方误差损失函数结果

逻辑回归通常使用交叉熵作为损失函数，而平方损失函数却很少用，原因是不好求导，而tensorflow在最优化时只许指定损失函数和最优化迭代方法即可自动求出最优解。下面对同一批样本分别用平方损失函数和交叉熵作为损失函数求最优解。#!/usr/bin/env python#-*- coding:utf8 -*-import sysimport tensorflow as tfimport n...

2019-01-30 18:22:24 1918 1

原创损失函数L1正则化稀疏性

机器学习算法中为了防止过拟合，会在损失函数中加上惩罚因子，即为L1／L2正则化。因此最终的优化目标函数为： f(x) = L(x) + C*Reg(x) , C > 0 本文只讲解L1正则化，因此Reg(x) = |x| 首先L(x)和Reg(x)都是连续函数，因此f(x)也是连续函数；其次L(x)和Reg(x)都是凸函数，因此f(x)也是凸函数；所以f(x)是有最优解的。而|x|仅在x=0

2018-01-08 17:49:28 2923

原创 ElasticSearch常见问题

1。启动es服务报以下错误 bin/elasticsearch 2017-12-09 10:51:58,130 main ERROR Could not register mbeans java.security.AccessControlException: access denied (“javax.management.MBeanTrustPermission” “register”)

2017-12-09 11:00:22 1417

原创自动监控并重启服务supervise

创建服务所在目录mkdir testcd testmore run #!/bin/bash./testmore test.c#include <stdio.h>#include <stdlib.h>#include <unistd.h>int main() { int ix = 0; while (1) { printf("

2017-08-04 15:57:33 2686

原创调用含中文参数Http接口

发送http请求，参数含有中文时，需要对参数值处理 url = "http://xxxx:8080/itemclass.php?text=" def request(spu_name): res = None try: requrl = url + urllib.quote(spu_name) req = urllib2.Request

2017-03-30 15:00:27 1756

原创 Flask Web服务开发

#!/usr/bin/env pythonfrom flask import Flaskfrom flask_wtf import FlaskFormfrom flask import render_template, requestfrom wtforms import StringField, SubmitFieldfrom wtforms.validators import Requir

2016-12-06 20:38:17 1210

Thrift是Facebook开源的一款RPC框架，使用起来非常方便。下面举一个简单的小例子。安装包下载wget http://www.apache.org/dist//thrift/0.9.3/thrift-0.9.3.tar.gz -O thrift-0.9.3.tar.gz安装这个需要可能需要先升级bisonwget http://ftp.gnu.org/gnu/bison/bison-2.5

2016-08-24 21:07:31 737

原创 running beyond physical memory limits

6/07/19 14:10:30 INFO mapreduce.Job: Task Id : attempt_1459504722049_479821_m_000041_2, Status : FAILED Container [pid=167394,containerID=container_1459504722049_479821_01_000180] is running beyond ph

2016-07-19 16:04:33 5031

原创 json字符串转化为对象

刚开始使用的是json.load() json.load(‘{\”a\”:1}’) Traceback (most recent call last): File “”, line 1, in File “/System/Library/Frameworks/Python.framework/Versions/2.7/l

2016-07-01 10:14:19 3111

原创 Python解析文件中的unicode字符

假设一个文件里的字符内容为： test = ‘\u5927\u5bb6\u597d\u6211\u662f\u4e00\u4e2a\u5fae\u5e97\u7ecf\u8425\u8005\uff0c\u4e3b\u8981\u7ecf\u8425\u4ea7\u54c1\u6709\uff0c\u7ae5\u978b\uff0c\u513f \u7ae5\u670d\uff0c\u513f\

2016-06-15 22:40:52 7294

原创 Spark程序结果包含括号的问题

一个简单的wordcount Spark程序如下所示：import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.SparkContext._/** * @author lming_08 */object WordCount { def main(args:Ar

2016-06-13 23:19:28 4722

原创 Spark中常见问题

Exception in thread “main” org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://argo/data/resys/mingliang/shop_diary/sparktest/WordCount/input.dat at org.apache.ha

2016-05-24 11:26:15 7841

原创 Diagnostics: Exception from container-launch

16/05/09 11:02:14 INFO mapreduce.Job: Job job_1459494184870_43303 failed with state FAILED due to: Application application_1459494184870_43303 failed 1 times due to AM Container for appattempt_14594941

2016-05-09 11:32:06 11684 3

原创 ln -s No such file or directory

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2016-05-05 17:17:02 3068

原创快速排序(C/C++版)

快速排序是经典的排序算法，快速排序关键点在于轴值的选取！关于这个，一般会从两端分别取值与默认轴值进行比较，从右边找到第一个比默认值小的值，从左边找到第一个比默认值大的值，然后交换这两个“哨兵“对应的值！最终达到的效果是轴值左边的都比轴值小，右边的比轴值大！闲话少说，直接上代码#include using namespace std;void print(int a[], int

2016-03-17 23:41:36 623

原创 Pandas常用操作

Seriesimport pandas as pdSeries类说明class Series(pandas.core.base.IndexOpsMixin, pandas.core.generic.NDFrame) | One-dimensional ndarray with axis labels (including time series).help(pd.Series(a[1:,0])

2015-12-19 22:48:26 3612

原创 git常见操作

1.迁出某个文件到本地git pull origin mastergit checkout origin/master .2.查看工作区与暂存区中文件做了哪些修改？git add test.txtgit commit -m “add test.txt” #或者 git commit test.txt -m “add test.txt"git diff HEA

2015-10-28 23:23:50 982

原创各语言对浮点数的截取&四舍五入等操作

截取Javapublic static String floatToStringByTruncate(float num, int remainBitNum) { String numStr = Float.toString(num); BigDecimal bd = new BigDecimal(numStr); bd = bd.setScale

2015-10-19 18:17:22 2041

原创拉格朗日求条件极值

拉格朗日求条件极值对于无条件极值可以直接对各偏导数等于0求解或者使用梯度下降法求解，而对于条件极值，一般会先转化成拉格朗日乘数法形式，再求解。而对于不等式的约束条件，还需要转化成对偶问题进行求解下面举一个例子，说明这一流程： http://www.moozhi.com/topic/show/54a8a261c555c08b3d59d996

2015-09-15 22:29:43 7915

原创关于使用matplotlib-legend方法失效问题

在使用matplotlib画图时， legend方法失效，着了好长时间，才在stackoverflow上找到这篇文章http://stackoverflow.com/questions/11983024/matplotlib-legends-not-working改完之后就好了

2015-08-26 13:54:08 5522

原创谱聚类--SpectralClustering

谱聚类一般会先对两两样本间求相似度，然后根据相似度矩阵求出拉普拉斯矩阵，然后将每个样本映射到拉普拉斯矩阵特诊向量中，最后使用k-means聚类。scikit-learn开源包中已经有现成的接口可以使用，具体见http://scikit-learn.org/dev/modules/generated/sklearn.cluster.SpectralClustering.html#sklea

2015-06-02 21:01:45 4229

原创 Python中字符串查找效率比较

Python中字符串查找方式有多种，常见的有re.match/search or str.find用一个例子来说明各种方式的效率如下：from timeit import timeitimport redef find(string, text): if string.find(text) > -1: passdef re_find(string, t

2015-05-06 21:39:36 10272

原创拟牛顿法之DFP算法

拟牛顿法(Quasi-Newton Methods)是求解非线性优化问题最有效的方法之一，于20世纪50年代由美国Argonne国家实验室的物理学家W. C. Davidon所提出来。Davidon设计的这种算法在当时看来是非线性优化领域最具创造性的发明之一。不久R. Fletcher和M. J. D. Powell证实了这种新的算法远比其他方法快速和可靠，使得非线性优化这门学科在一夜之间突飞

2015-04-26 20:55:32 5259

原创对指定URL获取其子链接

仿照http://blog.csdn.net/lming_08/article/details/44710779里面的方法, 获取指定URL 的所需的子链接及其描述.#!/usr/bin/python# -*- coding: utf-8 -*-import sysimport urllib2import reif len(sys.argv) != 2: print

2015-03-29 20:49:10 3716

原创对指定URL获取其titile

最近有个需求需要对指定一批URL获取其title，以便于筛选出所需要的URL，查了下网上工具挺多的。我这里使用python中的urllib或urllib包对URL 的内容提取.方法如下:#!/usr/bin/python# -*- coding: utf-8 -*-import urllib2import reu

2015-03-29 00:59:27 3637

原创模型评估&AUC

在机器学习中评判一个模型好坏的标准有很多，常用的有准确率、召回率、AUC等。本文介绍下AUC及其计算方式。AUC常用来评估一个二元分类模型，二元分类模型通常有4中预测结局，以是否患高血压为例：真阳性（TP）：诊断为有，实际上也有高血压。伪阳性（FP）：诊断为有，实际却没有高血压。真阴性（TN）：诊断为没有，实际上也没有高血压。伪阴性（FN）：诊断为没有，实际却有高血压。#!/usr/bin/pythonimport sysdef get_auc(arr_score, arr_labe

2015-03-22 22:59:28 2082

原创梯度下降法

梯度下降法在凸优化中应用非常广泛，常用于求凸函数极值。梯度是个向量，其形式为通常是表示函数上升最快的方向！因此，我们只需要每一步往梯度方向走一小步，最终就可以到达极值点，其表现形式为：初始点为x0，然后往梯度的反方向移动一小步r到x1，再次往梯度反方向移动r到x2，... ...，最终会越来越接近极值点min的。迭代时的公式为X(n+1) = X(n) - r * gra...

2015-03-15 22:57:06 1272

原创牛顿法

看最优化的文章时总能看到牛顿法和梯度下降法等基础算法，这里对牛顿法做个总结。牛顿法一般的用途有：1、求方程的根；2、求极值求方程的根并不是所有的方程都有求根公式，或者求根公式很复杂，导致求解困难。利用牛顿法，可以迭代求解。原理是利用泰勒公式，在x0处展开，且展开到一阶，即f(x) = f(x0)+(x－x0)f'(x0)求解方程f(x)=0，即f(x0)+(x-x0)*f'(x

2015-02-01 23:33:16 1723

原创 Finding the Right Consumer: Optimizing for Conversion in Display Advertising Campaigns

这周在公司分享会上分享了《Finding the Right Consumer: Optimizing for Conversion in Display Advertising Campaigns》，下面贴出分享的主要内容。文章参考于：http://www.cs.cmu.edu/~yandongl/papers/wsdm2012.pdf

2015-01-18 14:59:07 1305

原创标准化与归一化

标准化(Standardization)是按某个维度进行标准化，例如有下面的矩阵>>> X = np.array([[ 1., -1., 2.],... [ 2., 0., 0.],... [ 0., 1., -1.]])正态分布标准化后的结果就是array([[ 0. ..., -1.22...,

2014-12-13 22:36:36 1210

原创 Python中字符串的解压缩

今天在用Streaming-Python处理一个MapReduce程序时，发现reducer失败，原因为耗费内存达到极限了！仔细查看代码时，发现有一个集合里保存着URL，而URL长度是比较长的，直接保存确实是耗费内存，于是想到用压缩存储，然后用的时候再解压，虽然处理时间增加，但是耗费内存大大降低！具体就是使用zlib模块import zlib raw_data = "hello,wor

2014-11-08 03:20:39 3988

原创点击率校准

通常预测的点击率都是不准的，需要校准。例如，boosted trees and SVM预测结果趋于保守，即预测的概率偏向于中值；而对于NaiveBayes预测的概率，小概率趋于更小，大概率趋于更大。常用的校准方法有Binning和Pair‐Adjacent Violators (PAV)；下面分别说说这两种方法。Binning思想比较简单，也容易实现。需要说明的是，通常校准算法

2014-10-18 22:07:34 6068

原创利用scikit-learn进行FeatureSelection

1.>>> from sklearn.datasets import load_iris>>> from sklearn.feature_selection import SelectKBest>>> from sklearn.feature_selection import chi2>>> iris = load_iris()>>> X, y = iris.data, iris.

2014-09-11 19:45:34 8556

原创 Scala IDE黑色主题设置

网上大部分资料都是设置文本编辑区域的主题，这篇文章主要介绍如何设置UI主题。网上也有许多设置UI主题的资料，不过都是跟Eclipse相关，而Scala IDE虽然也是基于Eclipse，但还是有区别的，主要是没有Scala IDE Eclipse安装目录下没有dropins子目录。下面介绍下Scala IDE的UI主题安装方法。下载Eclipse Moonrise UI Theme 0

2014-08-18 20:20:29 4028

原创 Scala学习笔记

笔记内容比较杂！1.Scala中的单例对象使用object修饰，类似于C++中的静态类。调用其内部函数时，直接使用对象名调用，不能用new申请！2.一个文件中可以定义名称相同的类和单例对象，单例对象被称作是类的伴生对象(Companion Object)。二者可以相互访问彼此的私有成员。伴生对象可以理解为是相同名称的类的静态成员函数。3.Scala文件名不需要与

2014-08-18 00:26:48 1772

原创 Scala开发环境搭建

0.简介Scala（发音为 /ˈskɑːlə, ˈskeɪlə/）是一种多范式的编程语言，设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。Scala的编译模型（独立编译，动态类加载）与Java和C#一样，所以Scala代码可以调用Java类库（对于.NET实现则可调用.NET类库）。Scala包包

2014-08-04 00:28:46 3813

原创关于Hadoop-Streaming学习中碰到的问题

Hadoop在分布式计算方面很强大，而Python在文本处理也是相当方便，那么有这两者的结合吗？有，答案就是Hadoop-Streaming。Hadoop-Streaming可以将Hadoop与主流语言结合起来，使用方便，效果很好。个人觉得Pig在处理数据集时很不方便，特别是在计算百分比等运算时，而Hadoop-Streaming是可以替代Pig的。1.Streaming固定的代码，该代码可以...

2014-07-28 20:02:59 11098

原创 Python学习中碰到的问题

1.tuple元组是不可更改的

2014-07-17 13:00:32 16560

原创 R语言中碰到的问题

1.当使用cor()求相关系数时，出现以下错误：当求相关系数时，出现如下错误时：> cor(pvnum_avgwinprice$V2, pvnum_avgwinprice$V3)错误于cor(pvnum_avgwinprice$V2, pvnum_avgwinprice$V3) : 'y'必需是数值

2014-07-11 14:47:19 19712

原创 Python-sklearn学习中碰到的问题

auc = metrics.auc(fpr, tpr) File "/usr/local/lib/python2.7/site-packages/sklearn/metrics/metrics.py", line 172, in auc x, y = check_arrays(x, y) File "/usr/local/lib/python2.7/site-packages

2014-07-11 14:36:56 4142