- 博客(20)
- 资源 (2)
- 收藏
- 关注
原创 Python字符串笔记
Python字符串笔记1.字符串 str = 'abcd'在引用str 希望得到abcd时kkk = str + 'cdef'ttt = open("/home/suyuhan123/" + str + '.txt')引用字符时直接写str 不要写$str "str" 等。 str 直接就表示了 'abcd'2.代码中有中文时 写# coding
2016-09-01 17:16:42 340
原创 Linux文件压缩
Linux文件压缩1.压缩成tar文件tar命令可以用来压缩打包单文件、多个文件、单个目录、多个目录。常用格式:单个文件压缩打包 tar czvf my.tar file1多个文件压缩打包 tar czvf my.tar file1 file2,...单个目录压缩打包 tar czvf my.tar dir1多个目
2016-09-01 17:16:15 256
原创 随机森林
实习汇报目录(面试亦是如此)1.什么是weka2.机器学习算法的性能很大程度上依赖于应用程序和数据集的维度a.随机森林几乎不需要输入准备。它们可以处理二元特征,分类特征,数字特征,并且不需要任何缩放处理。b.随机森林可实现隐式特征选择,并且提供一个很好的特征重要性指标。c.随机森林训练速度非常快。它的一个特色就是当性能优化时,恰巧会提高模型精度,反之亦然。随机特征子集设置的
2016-09-01 17:13:46 656
原创 Apriori算法
Apriori算法一个项集的支持度:数据集中包含该项集的记录所占比例。{豆奶} {豆奶,尿布}置信度(可信度):针对关联规则来定义的。例如 {尿布}->{葡萄酒} = 支持度{尿布,葡萄酒} /支持度{尿布} = 0.75 这意味着对于包含尿布的记录,规则对其中75%的记录都适用。 支持度,可信度是用来量化关联分析是否成功的方法。 频繁项集:是经常
2016-09-01 17:08:32 280
原创 Apriori 算法关联分析
Apriori 算法关联分析频繁项集:经常出现在一起的物品的集合关联规则:暗示两物品间肯恩共存在很强的关系。 一个项集的支持度:数据集中包含该项集的记录所占比例。{豆奶} {豆奶,尿布}置信度(可信度):针对关联规则来定义的。例如 {尿布}->{葡萄酒} = 支持度{尿布,葡萄酒} /支持度{尿布} = 0.75 这意味着对于包含尿布的记录,规则对其中
2016-09-01 17:06:55 302
原创 连续值、缺失值 、正负样本不均衡处理方法
数据挖掘笔试总结:1.连续值、缺失值 、正负样本不均衡处理方法缺失值: (1)删除含有缺失值的数据对象或属性 (2)估计遗漏值,差值补全。 a.均值插补 均值 或者众数 b.利用同类均值插补 c.极大似然估计 前提适用于大样本期望值最大化 d.多重插补(较好) 最近邻平均属性 众数
2016-09-01 17:06:17 4587
原创 特征提取:
特征提取:原始特征的数量可能很大,或者说处在高纬空间中,通过映射(或变换)的方法用低纬空间来表示样本,这个过程叫特征提取。是一个变换过程 Y是测量空间 X是特征空间 变换A:Y->X 叫特征提取器。特征选择:从一组特征中挑选出一些最有代表性的特征,以达到降维的目的,这个过程叫特征选择。用映射(变换)方法,把原始特征变换为较少新特征————特征提取从原
2016-09-01 17:03:58 667
原创 Sql语句
Sql语句1. 删除表drop table name增加列(增加列后不能删除) Altertable t1 add column col int加主键 Altertable t1 add primary key(col)创建索引 Createindex idx on table (col ….)Drop
2016-09-01 17:03:07 182
原创 .operator
1.operator是操作符的意思。operator是C++的关键字,不是C语言当中的,它和运算符一起使用,表示一个运算符函数,理解时应将operator=整体上视为一个函数名。2.C++中的operator,有两种用法,一种是operator overloading(操作符重载),一种是operator casting(操作隐式转换)。下面分别进行介绍:1)operator
2016-09-01 17:02:31 303
原创 Haffman 编码
Haffman 编码 根据字符在文件中出现频率不同建立一个用0,1串表示字符的最优方式。给出现频率高的字符用较短的编码,出现频率较低的字符用较长的编码,达到整体编码最少的目的。// 使用不同长度(位数)的编码来表示各字符的最优构造Haffman树:哈夫曼提出构造 最优前缀码 的 贪心算法,由此产生的编码方案称为哈夫曼编码:若C是编码字符集,表示其最优前缀码的二叉树中恰有|C|个
2016-09-01 16:59:26 498
原创 hive group by 和 select set
void function(int *a){*a = 100;}int main(){int x=200;int *b = &x;function(b);return(0);} void function(int &a){a = 100;}int main(){int x = 200;function(x);return(0);}
2016-09-01 16:58:02 545
原创 switc—case 语句
switch判别式只能有4种类型,int、char、byte、short;public static void main(String args[]){int s=0,n;for(n=0;n{switch(n){default: s+=4;case 1: s+=1;break;case 2: s+=2;break;case 3: s+=3
2016-09-01 16:55:42 695
原创 debug N 天总结
做了很多工作,但是都不是问题所在。原来问题是电脑的问题,电脑跑步起来代码,卡住了,所以不出结果。并不是程序的问题。这个事情耽误了我至少至少至少整整两天时间!!!!房地产行业,新闻标题数据,开始时内存不足,出现些奇怪的错误提示。要调整参数,然后是编码问题,困扰了至少2天时间。错误提示index 不对。经尝试无法解决,此时应及时的求助他人,及时寻求帮助。这不仅是帮忙,更是节约自己时
2016-09-01 15:39:10 211
原创 eclipse 断点调试快捷键
eclipse 断点调试快捷键F8是调到下一个断点(没有的话,直接运行到结束)。F5是单步调试进入函数内部。F6是单步调试不进入函数内部。F7是由函数内部返回到调用处。
2016-09-01 15:38:14 235
原创 个人学习历程
知识技能增长历程1.Hive基本语句学习,创建hive表,把数据从postgreSQL导入hive中。2.sqoop 数据导入工具的学习,使用。先创建hive 表,然后用sqoop把数据导入。3.neo4j数据库的学习。把数据导入到Neo4j数据库。使用Python实现。Cython 语句的学习。向数据库表中插入数据,查询,删除。 python 脚本语言的编写,把txt数据按格式划分,
2016-09-01 15:37:52 293
原创 word2vec学习笔记
word2vec是把单词转换成向量的工具。通过向量间的相似度表示文本语义的相似度 一般用用Distributed Representation方法表示词向量通过训练语言模型,得到词向量。 l 词向量的评价词向量的评价大体上可以分成两种方式,第一种是把词向量融入现有系统中,看对系统性能的提升;第二种是直接从语言学的角度对词向量进行分析,如相似度、语义偏移等。
2016-09-01 15:37:27 431
原创 Cypher笔记
neo4j 笔记 ___2016-06-12Cypher 笔记:merge 相当于 match or create有就合并,没有就创建merge (a) //创建一个节点 on create set a.name="Tom" //设置节点的属性on match setsplit() 分隔时候用单引号 spl
2016-09-01 15:36:59 316
原创 sqoop笔记
sqoop import \-D mapred.job.queue.name=queue_gbd_ide_03 \ --connect jdbc:postgresql://10.20.130.122:7458/d0paebd \--username pierdata --password PaicDev1234 \ --query "select * from eb
2016-09-01 15:36:33 517
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人