自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (2)
  • 收藏
  • 关注

原创 Python字符串笔记

Python字符串笔记1.字符串  str = 'abcd'在引用str 希望得到abcd时kkk = str + 'cdef'ttt = open("/home/suyuhan123/" + str + '.txt')引用字符时直接写str  不要写$str  "str"  等。 str 直接就表示了 'abcd'2.代码中有中文时 写# coding

2016-09-01 17:16:42 340

原创 Linux文件压缩

Linux文件压缩1.压缩成tar文件tar命令可以用来压缩打包单文件、多个文件、单个目录、多个目录。常用格式:单个文件压缩打包 tar czvf my.tar file1多个文件压缩打包 tar czvf my.tar file1 file2,...单个目录压缩打包 tar czvf my.tar dir1多个目

2016-09-01 17:16:15 256

原创 随机森林

实习汇报目录(面试亦是如此)1.什么是weka2.机器学习算法的性能很大程度上依赖于应用程序和数据集的维度a.随机森林几乎不需要输入准备。它们可以处理二元特征,分类特征,数字特征,并且不需要任何缩放处理。b.随机森林可实现隐式特征选择,并且提供一个很好的特征重要性指标。c.随机森林训练速度非常快。它的一个特色就是当性能优化时,恰巧会提高模型精度,反之亦然。随机特征子集设置的

2016-09-01 17:13:46 656

原创 Apriori算法

Apriori算法一个项集的支持度:数据集中包含该项集的记录所占比例。{豆奶} {豆奶,尿布}置信度(可信度):针对关联规则来定义的。例如 {尿布}->{葡萄酒} = 支持度{尿布,葡萄酒} /支持度{尿布}  = 0.75           这意味着对于包含尿布的记录,规则对其中75%的记录都适用。 支持度,可信度是用来量化关联分析是否成功的方法。 频繁项集:是经常

2016-09-01 17:08:32 280

原创 Apriori 算法关联分析

Apriori 算法关联分析频繁项集:经常出现在一起的物品的集合关联规则:暗示两物品间肯恩共存在很强的关系。 一个项集的支持度:数据集中包含该项集的记录所占比例。{豆奶} {豆奶,尿布}置信度(可信度):针对关联规则来定义的。例如 {尿布}->{葡萄酒} = 支持度{尿布,葡萄酒} /支持度{尿布}  = 0.75           这意味着对于包含尿布的记录,规则对其中

2016-09-01 17:06:55 302

原创 连续值、缺失值 、正负样本不均衡处理方法

数据挖掘笔试总结:1.连续值、缺失值 、正负样本不均衡处理方法缺失值:   (1)删除含有缺失值的数据对象或属性   (2)估计遗漏值,差值补全。     a.均值插补 均值 或者众数     b.利用同类均值插补    c.极大似然估计   前提适用于大样本期望值最大化    d.多重插补(较好)     最近邻平均属性     众数    

2016-09-01 17:06:17 4587

原创 测试网络是否联通 telnet

测试网络是否联通telnet 10.33.46.55 5490

2016-09-01 17:04:41 2098

原创 特征提取:

特征提取:原始特征的数量可能很大,或者说处在高纬空间中,通过映射(或变换)的方法用低纬空间来表示样本,这个过程叫特征提取。是一个变换过程    Y是测量空间 X是特征空间  变换A:Y->X 叫特征提取器。特征选择:从一组特征中挑选出一些最有代表性的特征,以达到降维的目的,这个过程叫特征选择。用映射(变换)方法,把原始特征变换为较少新特征————特征提取从原

2016-09-01 17:03:58 667

原创 Sql语句

Sql语句1.      删除表drop table name增加列(增加列后不能删除)         Altertable  t1 add  column  col int加主键         Altertable  t1 add primary key(col)创建索引    Createindex  idx  on table (col ….)Drop

2016-09-01 17:03:07 182

原创 .operator

1.operator是操作符的意思。operator是C++的关键字,不是C语言当中的,它和运算符一起使用,表示一个运算符函数,理解时应将operator=整体上视为一个函数名。2.C++中的operator,有两种用法,一种是operator overloading(操作符重载),一种是operator casting(操作隐式转换)。下面分别进行介绍:1)operator

2016-09-01 17:02:31 303

原创 Haffman 编码

Haffman 编码 根据字符在文件中出现频率不同建立一个用0,1串表示字符的最优方式。给出现频率高的字符用较短的编码,出现频率较低的字符用较长的编码,达到整体编码最少的目的。//   使用不同长度(位数)的编码来表示各字符的最优构造Haffman树:哈夫曼提出构造 最优前缀码 的 贪心算法,由此产生的编码方案称为哈夫曼编码:若C是编码字符集,表示其最优前缀码的二叉树中恰有|C|个

2016-09-01 16:59:26 498

原创 hive group by 和 select set

void function(int *a){*a = 100;}int main(){int x=200;int *b = &x;function(b);return(0);} void function(int &a){a = 100;}int main(){int x = 200;function(x);return(0);}

2016-09-01 16:58:02 545

原创 构造arff格式的文件

不需要把文本内容读进来newsEmotion3.Predict(text)此处 会构造arff格式的文件

2016-09-01 16:56:37 747

原创 switc—case 语句

switch判别式只能有4种类型,int、char、byte、short;public static void main(String args[]){int s=0,n;for(n=0;n{switch(n){default: s+=4;case 1: s+=1;break;case 2: s+=2;break;case 3: s+=3

2016-09-01 16:55:42 695

原创 debug N 天总结

做了很多工作,但是都不是问题所在。原来问题是电脑的问题,电脑跑步起来代码,卡住了,所以不出结果。并不是程序的问题。这个事情耽误了我至少至少至少整整两天时间!!!!房地产行业,新闻标题数据,开始时内存不足,出现些奇怪的错误提示。要调整参数,然后是编码问题,困扰了至少2天时间。错误提示index 不对。经尝试无法解决,此时应及时的求助他人,及时寻求帮助。这不仅是帮忙,更是节约自己时

2016-09-01 15:39:10 211

原创 eclipse 断点调试快捷键

eclipse 断点调试快捷键F8是调到下一个断点(没有的话,直接运行到结束)。F5是单步调试进入函数内部。F6是单步调试不进入函数内部。F7是由函数内部返回到调用处。

2016-09-01 15:38:14 235

原创 个人学习历程

知识技能增长历程1.Hive基本语句学习,创建hive表,把数据从postgreSQL导入hive中。2.sqoop 数据导入工具的学习,使用。先创建hive 表,然后用sqoop把数据导入。3.neo4j数据库的学习。把数据导入到Neo4j数据库。使用Python实现。Cython 语句的学习。向数据库表中插入数据,查询,删除。 python 脚本语言的编写,把txt数据按格式划分,

2016-09-01 15:37:52 293

原创 word2vec学习笔记

word2vec是把单词转换成向量的工具。通过向量间的相似度表示文本语义的相似度 一般用用Distributed Representation方法表示词向量通过训练语言模型,得到词向量。 l  词向量的评价词向量的评价大体上可以分成两种方式,第一种是把词向量融入现有系统中,看对系统性能的提升;第二种是直接从语言学的角度对词向量进行分析,如相似度、语义偏移等。

2016-09-01 15:37:27 431

原创 Cypher笔记

neo4j 笔记 ___2016-06-12Cypher 笔记:merge 相当于 match or  create有就合并,没有就创建merge (a)   //创建一个节点  on create set     a.name="Tom"   //设置节点的属性on match setsplit() 分隔时候用单引号   spl

2016-09-01 15:36:59 316

原创 sqoop笔记

sqoop import \-D mapred.job.queue.name=queue_gbd_ide_03 \    --connect jdbc:postgresql://10.20.130.122:7458/d0paebd \--username pierdata --password PaicDev1234  \    --query "select * from  eb

2016-09-01 15:36:33 517

东软招聘笔试题

东软考试题。有时候简单,有时候难些,多看看有必要。如果会日语好像会有优势!

2014-07-16

phpStudy集成工具

php集成开发环境。phpStudy 包含很多东西,集成环境,简单方便。避免错误

2014-07-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除