自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小太阳~

愿你勇往直前,坚定有力量!(github:https://github.com/Nana0606)

  • 博客(264)
  • 资源 (3)
  • 收藏
  • 关注

原创 安装Pytorch的小坑简记

尝试装pytorch,官网上的介绍比较简单,但是安装过程中出现了一些问题,记录一下,不一定对所有机器都适用。写在前面环境如下:Ubuntu16.04(自带python2.7)一、版本问题最开始使用是Anaconda3-4.3.1,其自带的是python3.6,Pytorch官网上虽然给出了python3.6对应的命令,但是在本机安装不成功,最后安装成功的版本如下: Ana...

2018-03-29 21:27:00 7556 2

原创 次梯度(subgradient)方法

写在前面本篇博客来自其他几篇博客的整合(详见参考文献),主要是提取了一些利于自己理解的小点。一、为什么需要次梯度方法次梯度方法是传统梯度下降算法的拓展,传统梯度下降算法是为了解决可导凸函数的问题,而次梯度方法主要是为了解决不可导梯度的问题。但是其算法收敛速度会相对较慢。二、次梯度的定义次梯度是指对于函数fff上的点xxx满足一下条件的g∈Rng∈Rng \in \mathb...

2018-03-23 21:05:24 17197 12

原创 Python3:语言探测工具langdetect和langid

一、写在前面本篇博客主要介绍两款语言探测工具langdetect和langid,用于区分文本到底是什么语言,也是网上找到的一些资料,除了这两款之后,看到网上有的说使用NGram来解决这个问题也比较好。二、运行环境python3.6(anaconda)三、langdetect网址:https://code.google.com/archive/p/language-detecti...

2018-03-22 13:51:45 20980 7

转载 x-means简介

转载自https://www.cnblogs.com/porco/p/xmeans_intro.html,后续有时间看完原论文后再更新,先占坑。本文基于《X-means》和《BIC-notes》(原论文中BIC公式有误,这是对BIC的补充)K-means的缺点每一轮迭代的计算花费大需要用户指定K易于收敛到局部最优解X-means的改进使用kd-tree加速原K-mea...

2018-03-14 14:11:48 7098 4

原创 Leetcode_Problem 16_3 Sum Closest

题目问题网址: https://leetcode.com/problems/3sum-closest/description/ 问题描述: Given an array S of n integers, find three integers in S such that the sum is closest to a given number, target. Return the s...

2018-03-09 12:45:56 671

原创 Git: 删除commit记录方法(删除push失败的记录)

一、问题描述push大文件失败,在将大文件删除之后,其余小文件仍然受到之前大文件push失败的影响,无法正常push。二、解决方案需要将之前含有大文件的commit记录删除(全部删除)三、详细过程1、将git切换到之前提交的git项目所在目录 2、使用git log命令查看commit的历史记录及其对应的commit_id,查看结果如图: 3、复制commit_id,使...

2018-03-08 18:25:17 49580 11

原创 .DBF格式数据导入到Mysql中处理方式

写在前面1、.DBF格式文件的编码格式未知 2、使用Microsoft Visual FoxPro 9.0 SP1打开.DBF文件 3、虽然Mysql提供了可以导入.DBF文件的接口,但是因为.DBF文件编码格式未知,因此无法导入。所以这里采用的方法如下: Step1:先将.DBF文件导出成txt文件 Step2:将txt文件编码格式改成UTF-8 Step3:将txt文件导入Mys...

2018-03-01 19:39:23 8921 1

原创 Leetcode_Problem27_Remove Element

一、题目1、题目地址https://leetcode.com/problems/remove-element/description/2、题目描述Given an array and a value, remove all instances of that value in-place and return the new length.Do not allocate

2018-02-05 21:47:49 267

原创 Visual Studio Community 2017新建及运行C++程序步骤

写在前面貌似也经常用vs写代码,不过更经常的是使用codeblock,因为轻量级嘛,但是最近频繁发现codeblock有些bug监测不出来,所以准备放弃codeblock,转而使用vs,没装多久的2017版,新建过程又出现问题,记录一下,想给自己一个呵呵哒的表情(^_^,,没救了的我!!新建步骤1、菜单栏:文件 –> 新建 –>项目,如下图所示: 2、接着出现下图,先更改名称和项

2018-02-05 20:32:51 35322 2

转载 scrapy - Request 中的回调函数不执行

在 scrapy 中,scrapy.Request(url, headers=self.header, callback=self.parse_detail)12调试的时候,发现回调函数 parse_detail 没有被调用,这可能就是被过滤掉了,查看 scrapy 的输出日志offsite/filtered 会显示过滤的数目。这个问题如何解决呢,查看手册发现(https://doc

2018-02-05 14:49:08 2915

原创 Python:UnboundLocalError: local variable 'num' referenced before assignment

源代码num = 1def test(): num += 1 return numprint(test())错误详情可能原因python中出现了没有声明的变量 , py是通过如下简单的规则找出变量的范围 :如果函数内部有对变量的赋值 ,则该变量被认为是本地的,此时可以正常修改。但是若变量不定义在函数内部,且没有进行变量范围的声明(去调用外部变

2018-02-05 14:17:53 9071

原创 正则表达式的用法及实例

写在前面代码基于的python版本:python3.6一、^ $ * ? + {2} {2,} {2,5} |1、基本解释注意:下面匹配模式中x可使用任意字符代替。 ^x:表示字符串需要以“x”开头。 x$:代表结尾字符必须是x。 *:代表前面的字符可以重复任意多次,也可以出现0次,即≥0次。 ?x:表示对x进行非贪婪匹配,即遇到第一个x即进入匹配模式中。 x+:

2018-02-01 13:41:56 1251

原创 Leetcode_Problem4_Median of Two Sorted Arrays(两种解法)

题目问题网址: https://leetcode.com/problems/median-of-two-sorted-arrays/description/ 问题描述: There are two sorted arrays nums1 and nums2 of size m and n respectively.Find the median of the two sorted a

2018-01-31 22:22:57 369

原创 NYoj_301_递推求值 解题思路和代码

题目描述 给你一个递推公式: f(x)=a*f(x-2)+b*f(x-1)+c 并给你f(1),f(2)的值,请求出f(n)的值,由于f(n)的值可能过大,求出f(n)对1000007取模后的值。 注意:-1对3取模后等于2输入 第一行是一个整数T,表示测试数据的组数(T随后每行有六个整数,分别表示f(1),f(2),a,b,c,n的值。 其中0输出 输出f(n)对10

2018-01-22 13:50:18 423

转载 极大似然估计详解

原文链接:极大似然估计详解极大似然估计        以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计有了新的认识,总结如下:贝叶斯决策        首先来看贝叶斯分类,我们都知道经典的贝叶斯公式:        其中:p(w):为先验概率,表示每种类别分布的概率;:类条件概率,表

2018-01-17 11:07:35 778 1

原创 Bootstrap抽样和Monte Carlo思想

写在前面总是搞不懂、记不住这些名字好像很厉害的算法思想,这篇文章主要写一下Bootstrap抽样和蒙特卡罗算法思想。一、Bootstrap抽样1、基本思想Bootstrap抽样的基本思想是在全部样本未知的情况下,借助部分样本的有放回多次抽样,构建某个估计的置信区间,抽象地说,通过样本得到的估计并没有榨干样本中的信息,bootstrap利用重采样,把剩余价值发挥在构建置信区间

2018-01-17 10:28:51 24464 2

转载 Bootstrap抽样:0.632自助法

Bootstrap方法:每当选中一个元组,这个元组同样也可能再次被选中并再次添加到训练集中。例如,想象一台从训练集中随机选择元组的机器,在有放回的的抽样中,允许机器多次选择同一个元组。有多种自助方法,最常用的是 .632自助法。方法如下:​假设给定的数据集包含d个元组,该数据集有放回的抽样d次,产生d个样本的自助样本集或训练集。原始数据元祖中的某些元组很可能在该样本集中出现多次。没有进入该

2018-01-15 21:05:57 12083

原创 等式约束和不等式约束下的KKT条件求法

一、写在前面本篇内容主要写非线性规划等式约束和不等式约束下的KKT条件,主要通过举例说明。二、等式约束下的KKT条件1、 题目描述考虑等式约束的最小二乘问题 minimizexTxsubjecttoAx=b minimize \quad x^Tx \\ subject \ to \quad Ax=b 其中,A∈Rm∗n,rank(A)=m A \in \mathbb

2018-01-15 16:41:36 14828

原创 对偶函数求解实例

一、写在前面关于对偶函数的思想以及定义,网上有很多内容,这里不再细说,但是个人还是觉得有实例看起来比较容易理解,本篇博文主要提供一个对偶的小例子。刚入门优化知识,理解尚浅!二、题目叙述考虑等式约束的最小二乘问题 minimizexTxsubject toAx=b minimize \quad x^Tx \\ subject \ to \quad Ax=b 其中,A∈Rm∗n,

2018-01-15 16:06:21 18686

转载 理解事务的4种隔离级别

原文链接:http://blog.csdn.net/qq_33290787/article/details/51924963,感谢作者~数据库事务的隔离级别有4种,由低到高分别为Read uncommitted 、Read committed 、Repeatable read 、Serializable 。而且,在事务的并发操作中可能会出现脏读,不可重复读,幻读。下面通过事例一一阐述它们的

2018-01-01 15:52:33 536

原创 Eclipse启动问题:An error is occurred

出现问题:在Eclipse启动时出现:An error is occurred, please see the log ...问题详情(log中内容):!ENTRY org.eclipse.e4.ui.workbench 4 0 2017-11-28 09:02:51.889!MESSAGE FrameworkEvent ERROR!STACK 0org.eclipse.swt.

2017-11-28 09:25:44 2857

原创 Windows下Git命令行基本使用

一、准备工作(1)在https://github.com网站上注册一个账号并设置用户名、密码,新建一个repository(2)在网站http://msysgit.github.io/上下载git,并安装二、设置SSH1、首先在本地创建ssh key,使用下面的命令:$ ssh-keygen -t rsa -C "your_email@youremail.com"后面的参数

2017-10-26 21:52:52 7809

原创 NYoj_08_一种排序 解题思路和代码

题目描述现在有很多长方形,每一个长方形都有一个编号,这个编号可以重复;还知道这个长方形的宽和长,编号、长、宽都是整数;现在要求按照一下方式排序(默认排序规则都是从小到大);1.按照编号从小到大排序2.对于编号相等的长方形,按照长方形的长排序;3.如果编号和长都相同,按照长方形的宽排序;4.如果编号、长、宽都相同,就只保留一个长方形用于排序,删除多余的长方形;

2017-10-24 23:04:13 686

原创 NYoj_07_街区最短路径问题 解题思路和代码

题目: 描述一个街区有很多住户,街区的街道只能为东西、南北两种方向。住户只可以沿着街道行走。各个街道之间的间隔相等。用(x,y)来表示住户坐在的街区。例如(4,20),表示用户在东西方向第4个街道,南北方向第20个街道。现在要建一个邮局,使得各个住户到邮局的距离之和最少。求现在这个邮局应该建在那个地方使得所有住户距离之和最小;输入第一行一个整数n<20,表示有...

2017-10-23 22:36:47 2143 8

转载 eclipse Maven配置与实例

注:本文来自几篇博客的整合,是我结合自己使用过程中出现的问题重新整理了一下。参考博客(图片均来自下面博客):eclipse Maven配置eclipse修改maven的本地仓库位置Eclipse使用Maven时出现:Index downloads are disabled, search results may be incomplete.问题解决eclipse m

2017-10-14 22:10:56 1100

转载 python问题:ValueError: operands could not be broadcast together with shapes (100,3) (3,1)

原文链接:http://www.mamicode.com/info-detail-1072145.html背景:dataMatrix是(100,3)的列表,labelMat是(1,100)的列表,weights是(3,1)的数组,属性如下代码所示:>>> import types>>> type(dataMatrix)>>> type(labelMat)>>>

2017-10-11 20:14:04 66555

原创 代码覆盖度工具OpenCppCoverage(cpp)、EclEmma(java)、Coverage(python)使用

一、OpenCppCoverage(cpp)OpenCppCoverage是一个运行在windows上的程序,其不是在编译时进行插桩,而是在运行时,因此保证了代码和测试的一致性。 参考文档:https://github.com/OpenCppCoverage/OpenCppCoverage1、命令行方式(1)下载和安装下载地址:https://github.com/OpenCppCoverage/

2017-09-24 09:34:37 9479 5

原创 Paper:Learning from Imbalanced Data - by H He et al.

论文链接:Learning from Imbalanced Data一、基本概念1、类间不平衡 VS. 类内不平衡类间不平衡:不同类别之间的数据量相差较大。 类内不平衡:某一个类分布成多个小聚类,每个小聚类数据量相差较大。 如下图: 图(a)中圆形和五角星代表2个不同的类,他们的数目量相差较大,因此属于类间不平衡。 图(b)中:A代表圆形类中数量较大的圆形集合,D代表圆形类

2017-09-12 23:08:10 8398 4

转载 转自美团技术:机器学习中的数据清洗与特征处理综述&实例详解机器学习如何解决问题

机器学习中的数据清洗与特征处理综述背景随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐、筛选排序、搜索排序、用户建模等等,为公司创造了巨大的价值。本文主要介...

2017-09-12 20:00:53 4227

原创 win下Eclipse远程连接Hbase的配置及程序示例(create、insert、get、delete)

Hadoop入门配置系列博客目录一览1、Eclipse中使用Hadoop伪分布模式开发配置及简单程序示例(Linux下)2、使用Hadoop命令行执行jar包详解(生成jar、将文件上传到dfs、执行命令、下载dfs文件至本地)3、Hadoop完全分布式集群安装及配置(基于虚拟机)4、Eclipse中使用Hadoop集群模式开发配置及简单程序示例(Windows下)5、Zook...

2017-08-21 10:24:31 2466 4

原创 Gnuplot:双折线图、双柱状图模板

一、下载下载地址:https://sourceforge.net/projects/gnuplot/files/gnuplot/我下载的版本:gp504-win64-mingw.exe直接安装即可,没什么需要注意的。二、画图说明在画图时,需要一个数据文件(在本篇文章中以.dat结尾的文件),一个plot文件(在本篇文章中以.plt结尾的文件),这2个文件需要放在同一目录下,

2017-08-03 21:00:34 5012

原创 Win下使用Eclipse开发scala程序配置(基于Hadoop2.7.3集群)

写在前面本篇博客讲的是已经在Ubuntu配置好环境,并且scala功能可以正常使用的情况下,在windows下使用eclipse开发scala程序的配置。 Ubuntu下各软件的版本: Hadoop集群: hadoop-2.7.3 Hive版本: hive-2.1.1 Spark版本: spark-2.1.0-hadoop2.7 Scala版本: scala-2.12.2 关于集群的配置

2017-07-22 20:45:05 2397

原创 Scala-2.12.2和Spark-2.1.0安装配置(基于Hadoop2.7.3集群)

Hadoop集群环境安装配置详见: Hadoop完全分布式集群安装及配置(基于虚拟机) Ubuntu镜像版本: ubuntu-16.04.2-server-amd64.iso JDK版本: jdk1.8 Hadoop版本: hadoop-2.7.3已安装的Hadoop集群中主机名和对应的IP如下: 主机名 IP hadoop2m(master) 192.168.163.13

2017-07-21 10:06:28 3592 2

转载 MultipleOutputs实战:结果输出到多个文件夹或者文件中

转载链接: http://blog.csdn.NET/garychenqin/article/details/48339327(在原文基础上增加了代码分析、执行和结果)1、原理技术输出到多个文件或多个文件夹,驱动中不需要额外改变,只需要在MapClass或Reduce类中加入如下代码:private MultipleOutputs mos; public void setup(

2017-07-19 14:41:53 3345

转载 MultipleOutputs实战:结果输出到多个文件夹或者文件中

转载链接: http://blog.csdn.net/garychenqin/article/details/48339327(在原文基础上增加了代码分析、执行和结果)1、原理技术 输出到多个文件或多个文件夹,驱动中不需要额外改变,只需要在MapClass或Reduce类中加入如下代码:private MultipleOutputs mos;public void set

2017-07-19 14:31:15 386 2

原创 Hadoop中自定义Partitioner,但是不同的key仍然在一个输出文件中

问题描述:在自定义Partitioner的时候,想要实现一个简单的功能:将对应的key为“short”、“right”和“long”的分别存储在3个文件中。因为默认是存储在一个文件中,所以需要自定义Partitioner。在实现功能的时候,想要通过判断key的值来决定result,代码如下: public int getPartition(Text key, Text va...

2017-07-19 09:02:06 1089 2

原创 Hive:使用beeline连接和在eclispe中连接

在mysql5.7.18安装、Hive2.1.1安装和配置(基于Hadoop2.7.3集群)中,已经讲到了mysql和hive的安装和配置。本篇博客第一部分讲的是使用beeline连接hive的方法,第二部分讲的是在eclipse中远程连接hive。准备工作1、启动hadoop服务 2、启动mysql服务使用beeline连接1、启动hiveserver2服务在根目录下, 使用下面的命令启动hiv

2017-07-17 16:23:55 3176

原创 Hive启动提示端口10000被占用:SelectChannelConnector@0.0.0.0:10000: java.net.BindException

问题描述: 在使用hive --service hiveserver2启动hiveserver2服务的时候,提示SelectChannelConnector@0.0.0.0:10000: java.net.BindException。 问题原因: 在之前已经使用这个命令启动过一次,但是由于没有启动成功,我直接用Ctrl+Z把进程终止了,再次启动,所以会提示端口被占用的情况。 解决方案: 使

2017-07-17 15:46:44 3366

转载 hiveserver2启动:javax.jdo.JDODataStoreException: Error executing SQL query "select "DB_ID" from "DBS""

原文链接:http://www.cnblogs.com/zwgblog/p/6063993.html启动hive-metastore和hive-server2 用beeline连接hive报错12345678[root@node04 hive]# beelineBee

2017-07-16 19:20:02 10383

原创 Hadoop完全分布式在实际中优化方案

步骤 优化方案 配置hosts文件 用DNS代替hosts文件,可使用bind工具 建立hadoop运行账号 centered 配置ssh免密码连入 利用NFS实现秘钥共享 下载并解压hadoop安装包 配置namenode,修改site文件 配置hadoop-env.sh 配置masters和slaves文件 只需要在maste

2017-07-15 22:41:41 595

ATT&MIT;&YALE;&ORL;人脸库

ATT&MIT;&YALE;&ORL;人脸库,都是从网络上下载的资源,仅供学习,侵权立删

2017-10-10

mysql-connector-java-5.1.22

MYSQL连接器,使用不同的客户端程序连接mysql需要用的到驱动程序

2016-01-27

正交设计助手

这是一款绿色软件,不需要安装,解压后直接使用,可用于设计测试用例,

2015-04-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除