FM/FMM算法笔记 原文链接 FM\\FMM优点:特征稀疏时保持良好性能 FM原理: onehot的编码后特征极度稀疏,特征空间大(升维双刃剑:线性可分、过拟合维度爆炸--效果为王) 通过多项式交叉后,交叉特征含有更多的特征值为零样本。但是为了训练权重,让不同的特征权重区分化更多的依赖于该特征下非零的样本 采用一种矩阵分解的思路。求得的n*k维矩阵v为描述特征的因子 优点:训练的参数变少了;对于vi...
Python_独特语法/strip is 和 ==Python中万物皆对象,每个对象有3个属性。id-对象地址,type-对象类型,value-值 is:比较对象地址是否相同。而==:比较value是否相同not 的用法判断 if not 5,类似!= 注意 if not x 和 if x is None 并不等价。在python中,空[],空{},等均为假值。但是None 不等于空{}等。 https://blo...
意图识别_Query特征提取 【1】背景/术语:Search_Session:用户与搜索引擎的一次完整的过程。信息包括:Query、Title、如果用户在Session期间变换了查询词,后续的搜索和点击均会被记录,直到脱离搜索。理解:一个样本即Query和点击的Title【2】Query的意图识别和传统的文本分类问题有如下区别:类别不完全互斥,即多标签。eg:极品飞车属于游戏、电影类 样本分布不均衡:一、类别方面不...
数学_样本方差_分母为n-1的理解 【1】背景:一直对样本方法的分母为n-1很困惑。原因:方差就是n个样本减去均值平方项的平均值。既然是平均值,那么分母必须是n。如果为n-1的话怎么能成为方差呢?【2】解决:https://www.zhihu.com/question/20099757因为样本方差中的平均值并不是准确的平均值,是估计得到的平均值。所以,样本方差公式的本质并不是方差公式,而是由方差公式推导而来的...
Linux_去除重复的行并显示重复次数 【1】sort 后 uniq 。注意:uniq 不会检查重复的行,除非它们是相邻的行。如果您想先对输入排序,使用sort -u。 uniq中有参数,可以实现重复次数的输出 http://man.linuxde.net/uniq【2】用awk数组 awk '{x[$0]+=1}END{for( i in x){print i,x[i]}}'...
Python_write写文件失败 【1】背景:文件中存在ouput.write;执行程序后,ctrl z终止。发现write失败。【2】原因:文件通过write方法写入文件时,并不是及时的写入系统磁盘,而是首先写入到自己的缓存区[内存],当缓存区满了的时候才会异步写入到磁盘进行落地,否则永远不会写入真实磁盘文件 ...
剑指offer_感悟 【1】参数检验【2】循环思想循环前:变量的初始化。指标分为指示变量和统计变量。 循环中:变量的改变 循环后(截止语句):指示变量的检验 注意:如果统计变量也需要检验,注意可能会发生越界。所以最好将统计变量的检验放在循环内,只检验指示变量。【3】栈和队列栈:正向存储,反向输出(有点自底向上的意思);本质为递归;【4】分治思想第一种:将问题拆分,拆分后的小问题与原...
意图识别_总结 【1】意图识别的难点:输入不规范 多意图。eg:仙剑奇侠传 游戏?电视剧?小说? 结果的可靠性。 实效性: iPhone5 7月1日上市销售 6月30日的查询意图:新闻90%,百科10% 7月1日的查询意图:新闻70%,购买25%,百科5% 8月1日的查询意图:购买50%,资讯40%,...
Hive_随机取样 【1】利用Hive中的rand简单随机取样order by rand(12345) limit 10000;【2】其他的取样方式见:https://www.jianshu.com/p/2b73e7c53355
Linux_脱机管理/ps 【1】背景:如果你以远程连接的方式连接Linux主机,且以&的方式放到后台。那么你脱机了,工作就会停止【2】nohup 可以让你在脱机后,仍可以让工作继续进行。nohup filename.sh &【3】再次登录的话。可以 ps -l 查看进程。会发现工作还在执行中【4】信息的输出会定向到 ./nohup.out中。但要注意如果程序运行错误,会将错误也输出到noh...
python_与或非逻辑/真假值事例 【1】Python的与或非与C++一样两种:逻辑运算/位运算【2】Python的逻辑运算和C++的不同,为:and、or、not【3】一些常见的假值"spam" True "" False [] False {} False 1 True 0.0 False None False ...
Linux_查看linux日志/查看日志的命令 more/less/tail/sed 【1】原来linux上是有日志的,鸟哥私房 P576页【2】more:类似cat,但是会以一页一页的显示。空白下翻,b(back)上翻。【3】less:类似more。但是功能更方便。pagedown/pageup实现翻页【4】tail尾部几行:类似head【5】sed:好像很强大的工具(替换/查找/删除)用到再来总结...
Python_异常处理try name = ['rr','ww']try: print(name[2]) print("继续")except : print('下标越界')else: print('下表未越界')【1】可能出错的代码放到try内,有错会直接退出try【2】若try内出错,执行except:【3】若try内不出错,执行else:【4】注意:try和excep...
Python_打包py文件 【1】创建一个virtualenv环境:virtualenv也就是虚拟环境。可以在同一个计算机中隔离多个python版本,比如python2,python3;mkdir SandwichApp cd SandwichApp# Use virtualenv to create an isolated environmentvirtualenv 环境名source venv/...
Hadoop_知识点 【1】拿到数据包时,什么集群已经设置好了,尴尬【2】运行:mapreducer的运行方式已经写好脚本放到bin里了,只需将tool/hadoop-client/hadoop放置到.bashrc设置里即可。【3】getmerge:hadoop fs -getmerge <src> <localdst> [addnl]重点可以讲将源目录中所有的文件连接成本地目标文件。a...
Python_print()/文件读写open()/str.find()/与或逻辑/取索引/while/python无double/map 【1】print 可以输出好多数据类型。包括:str、int、list【2】f=open(filename,mode)。f.read()将文本全部取出;f.readlines()是一个迭代器,for line in f.readlines 使用【3】str.find() 不是找不到会返回null,你真傻。0/none都会是假值,0代表找到在第一位。所以找不到会返回-1。【4】与c++不...