自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 资源 (4)
  • 收藏
  • 关注

转载 梯度下降

转载自http://binhua.info/machinelearning/%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B7%B1%E5%85%A5%E6%B5%85%E5%87%BA目录微分导数方向导数梯度梯度下降算法梯度下降算法的应用一、微分微分描述的是当函数自变量的变化量ΔxΔx在足够小的改变时函数值的改变情

2016-08-25 14:24:43 217

原创 hive 随机数

create table cf_tmp.sy_newstart_01 as select pinfrom( select pin,mobile,cast(rand() * 1000000 as int) as flag from cf_dm.d_jdsum_1507_v4 ) t1where flag <  100000 and mobile is not NULL limit 500

2015-09-10 11:45:57 3518

转载 python 字典排序

一、字典排序在程序中使用字典进行数据信息统计时,由于字典是无序的所以打印字典时内容也是无序的。因此,为了使统计得到的结果更方便查看需要进行排序。Python中字典的排序分为按“键”排序和按“值”排序。1、按“值”排序   按“值”排序就是根据字典的值进行排序,可以使用内置的sorted()函数。    sorted(iterable[, cmp[, key[, re

2015-08-18 14:20:42 290

原创 python pandas 用法

import pandas as pdusers = pd.read_csv('user_list.csv')len(users.USER_ID_hash.unique())        == 22873https://www.kaggle.com/c/coupon-purchase-prediction/forums/t/15447/inconsistent-number-o

2015-08-18 07:40:11 279

原创 hive 分隔符 ^A

^A 的实际编码为\001

2015-07-27 18:19:03 4449

原创 hive 中运行sql文件

1.在hive之外:hive -f test.sql2.在hive之内:source test.sql;

2015-07-17 17:23:57 381

原创 本地文件传hive

本地文件上传hive两步:1.创建hive表create table cf_tmp.sy_sms_0714(id int,tel int,category string,label string,content1 string,content2 string,channel string,source string,time string) row format delimited

2015-07-14 09:05:24 214

转载 sql hive 整理

1 select * from 数据表 where 字段名 = 字段值 order by 字段名2. select * from 数据表 where 字段名 like (something) order by 字段名3. select top 10 * from ...4.select * from 数据表 where 字段名 in (\'值1\',\'值2\',\'值3\')5.

2015-06-27 19:28:36 56

原创 Python 正则

import re一次性的快速检查,可以用:matchobj = re.match(r"regex",subject)matchobj.group()matchobj.group(1) 或 match group('name')matchobj.groups() #所有捕获matchobj.groupdict() * 字典形式若想重复用一个正则表达式,则需要使用

2015-06-14 21:40:05 311

原创 正则表达式经典实例 笔记

1.不区分大小写的匹配(?i)ascii还有开关:abc(?i)def(?-i)hij(?i)和(?-i)之间的不区分大小写,适用于Java,不适用于Python2.块转义\Q %^&*%* \E3.匹配开头结尾开头:^abc 或者 \Aabc结尾:abc$ 或者 abc\Z 可以用\A\Z匹配空串4.词边界\bcat\b \

2015-06-14 21:11:01 271

转载 词向量

既然题主说词向量( Distributed Representation)的工作原理是什么,应该不是问获得词向量算法的原理。那就举个通俗的例子。现代人看到宝马,奔驰这两个词,第一眼的反应多数都是汽车。但是如果拿给古人看,古人一定想不到汽车。为什么呢,因为古人没有相关知识,只能从字面上去理解这两个词,即,。拿给计算机,计算机看到的也是字面上的意思,这两个字串是八竿子打不着(要是给

2015-02-11 11:51:06 482

转载 mysql命令行常用命令

1:使用SHOW语句找出在服务器上当前存在什么数据库:mysql> SHOW DATABASES;2:2、创建一个数据库MYSQLDATAmysql> CREATE DATABASE MYSQLDATA;3:选择你所创建的数据库mysql> USE MYSQLDATA; (按回车键出现Database changed 时说明操作成功!)4:查看现在的数据库中存在什么表m

2014-12-30 10:41:28 284

转载 java json 嵌套

关于json嵌套解析5Java代码  {        "fullname": "Sean Kelly",        "org": "SK Consulting",        "emailaddrs": [           {"type": "work", "value": "kelly@seankelly.biz"},       

2014-11-11 11:44:41 248

转载 Java设计模式透析之 —— 模板方法(Template Method)

转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/8744002今天你还是像往常一样来上班,一如既往地开始了你的编程工作。项目经理告诉你,今天想在服务器端增加一个新功能,希望写一个方法,能对Book对象进行处理,将Book对象的所有字段以XML格式进行包装,这样以后可以方便与客户端进行交互。并且在包装开始前和结束后要打

2014-11-05 18:33:50 223

转载 推荐算法分类

1、Item based collective filtering总结:物以类聚很多网站的核心算法之一原因:item的增长速度远小于user的增长速度方法:离线计算item的相似度矩阵供线上使用缺点:由于基于item的相似性,故推荐的item相似,缺乏多样性 2、user based collective filtering总结:人以

2014-11-03 14:38:31 240

转载 正则表达式学习参考

正则表达式学习参考1       概述正则表达式(Regular Expression)是一种匹配模式,描述的是一串文本的特征。正如自然语言中“高大”、“坚固”等词语抽象出来描述事物特征一样,正则表达式就是字符的高度抽象,用来描述字符串的特征。正则表达式(以下简称正则,Regex)通常不独立存在,各种编程语言和工具作为宿主语言提供对正则的支持,并根据自身语言的特点,进行一定的剪裁或

2014-10-31 16:17:10 235

转载 DFA和NFA

1.历史:引用正则表达式萌芽于1940年代的神经生理学研究,由著名数学家Stephen Kleene第一个正式描述。具体地说,Kleene归纳了前述的神经生理学研究,在一篇题为《正则集代数》的论文中定义了“正则集”,并在其上定义了一个代数系统,并且引入了一种记号系统来描述正则集,这种记号系统被他称为“正则表达式”。在理论数学的圈子里被研究了几十年之后,1968年,后来发明了UN

2014-10-31 15:37:04 379

转载 log级别

日志记录器(Logger)是日志处理的核心组件。log4j具有5种正常级别(Level)。: 1.static Level DEBUG : DEBUG Level指出细粒度信息事件对调试应用程序是非常有帮助的。 2.static Level INFO INFO level表明 消息在粗粒度级别上突出强调应用程序的运行过程。 3.static Level WARN WARN

2014-10-22 16:14:40 234

转载 Java中的软件包

Java中的软件包    由于所有的Java类组合在一块形成软件包,所以,没有它们将什么也做不了。    本章先概览Java软件包的语法和语义,接下去讨论Java和Visual J++的一些软件包。读者可能已经注意到,实际上,编程已经用到的类都包含在这些预定义的软件包中。使用现成的软件包比创建新的软件包要普遍,但是,有时用户也需要创建自己的软件包,所以,这里将举例说明怎样实现自己创建软件包

2014-10-22 11:35:18 213

转载 JAVA中String与StringBuffer的区别

String和StringBuffer的区别,网上资料可以说是数不胜数,但是看到这篇文章,感觉里面做的小例子很有代表性,所以转一下,并自己做了一点总结。 在java中有3个类来负责字符的操作。1.Character 是进行单个字符操作的,2.String 对一串字符进行操作。不可变类。3.StringBuffer 也是对一串字符进行操作,但是可变类。

2014-10-20 15:42:23 175

转载 Integer之toString()详解

Integer.toString(int par1,int par2),par1表示要转成字符串的数字,par2表示要转成的进制表示,如:Integer.toString(22,2),表示把22转成2进制表示的字符串,Integer.toString(22,10),表示把22转成10进制表示的字符串,Integer.toString(22,16),表示把22转成16进制表示

2014-10-20 14:58:56 404

转载 文本比较算法剖析(2)-如何确定最优匹配路径

上回说到,如何确定最大匹配数。接下来,本次将简述如何确定最优匹配路径。仿照确定最大匹配数的算法,这个问题也非常容易解决,不知道这周当中,有没有哪位XDJM已经有了自己的解决方案呢?有问题可以发邮件给我:Calriones@hotmail.com文本比较算法剖析(2)-如何确定最优匹配路径确定最优匹配路径的问题,通常在做文件比较时要用到,它的意思是:在所有能够得到最大匹配点数的路径中,找

2014-10-19 14:51:09 581

转载 文本比较算法剖析(1)-如何确定最大匹配率

最近看到有人在找关于文本比较的算法,刚好最近休假,研究了一下,终于找到一个简单有效的算法,和大家分享一下。算法本身很简单,但是要说清楚思路和原理就比较复杂了,打算分两次发表(明天就要上班拉!),分别对应文本比较算法中的两个主要问题:1。如何确定最大匹配率; 2。如何确定最优的匹配路径;算法本身是基于图论的,太麻烦了,所以不打算介绍整个思路,只将最后的结果详细解说给大家。

2014-10-19 14:46:01 709

转载 Java中startWith方法的使用!

今天看Java代码时,看到了字符串有一个方法是startsWith(String str)当时觉得见名之意,很简单吗,然后就自己动手做了一下,没想到发现了一个startsWith()方法的重载,startsWith(String str,int Index),当时上网去查了一下没有后边这个方法,于是自己做了一下测试,现在给出如下详细解释,startsWith(String str)就是检查形参参数

2014-10-16 18:26:16 304

转载 java.lang.String中的trim()方法的详细说明

String.Trim()方法到底为我们做了什么,仅仅是去除字符串两端的空格吗?一直以为Trim()方法就是把字符串两端的空格字符给删去,其实我错了,而且错的比较离谱。首先我直接反编译String类,找到Trim()方法:public string Trim(){ return this.TrimHelper(WhitespaceChars, 2);}

2014-10-16 18:21:16 253

转载 InputStream和Reader的区别

java.io.Reader 和 java.io.InputStream 组成了Java 输入类。Reader 用于读入16位字符,也就是Unicode 编码的字符;而 InputStream 用于读入 ASCII 字符和二进制数据。Reader支持16位的Unicode字符输出,InputStream支持8位的字符输出。Reader和InputStream分别是I/O库提供的两套

2014-10-16 15:50:06 225

转载 正则表达式(转)

学习正则表达式的最好方法是从例子开始,理解例子之后再自己对例子进行修改,实验。下面给出了不少简单的例子,并对它们作了详细的说明。假设你在一篇英文小说里查找hi,你可以使用正则表达式hi。这几乎是最简单的正则表达式了,它可以精确匹配这样的字符串:由两个字符组成,前一个字符是h,后一个是i。通常,处理正则表达式的工具会提供一个忽略大小写的选项,如果选中了这个选项,它可以匹配hi,HI,Hi,h

2014-09-30 15:04:05 207

weka-3-6-9jre

Weka的全名是怀卡托智能分析环境,是一款免费的,非商业化的,基于JAVA环境下开源的机器学习以及数据挖掘软件。

2015-12-11

xshell_4.0.0131

Xshell 是一个强大的安全终端模拟软件,它支持SSH1, SSH2, 以及Microsoft Windows 平台的TELNET 协议。Xshell 通过互联网到远程主机的安全连接以及它创新性的设计和特色帮助用户在复杂的网络环境中享受他们的工作。

2015-12-11

EditPadLite7 64位 免安装

EditPadLite7 64位 绿色版免安装,可以快速编辑打开大文本,大数据处理中很好用的编辑工具

2015-12-11

apache-maven-3.0.4-bin

基于项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,报告和文档的软件项目管理工具。

2015-12-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除