自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

转载 awk_强大功能:字符串长度/切割/正则匹配/大小写转化

【1】https://blog.csdn.net/xibeichengf/article/details/51346632

2018-08-29 10:57:12 6815

原创 Python_独特语法/strip

is  和  ==Python中万物皆对象,每个对象有3个属性。id-对象地址,type-对象类型,value-值 is:比较对象地址是否相同。而==:比较value是否相同not 的用法判断 if not 5,类似!= 注意 if not x  和 if x is None 并不等价。在python中,空[],空{},等均为假值。但是None 不等于空{}等。 https://blo...

2018-08-22 14:43:26 281

原创 意图识别_Query特征提取

【1】背景/术语:Search_Session:用户与搜索引擎的一次完整的过程。信息包括:Query、Title、如果用户在Session期间变换了查询词,后续的搜索和点击均会被记录,直到脱离搜索。理解:一个样本即Query和点击的Title【2】Query的意图识别和传统的文本分类问题有如下区别:类别不完全互斥,即多标签。eg:极品飞车属于游戏、电影类 样本分布不均衡:一、类别方面不...

2018-08-16 11:21:12 3151

原创 数学_样本方差_分母为n-1的理解

【1】背景:一直对样本方法的分母为n-1很困惑。原因:方差就是n个样本减去均值平方项的平均值。既然是平均值,那么分母必须是n。如果为n-1的话怎么能成为方差呢?【2】解决:https://www.zhihu.com/question/20099757因为样本方差中的平均值并不是准确的平均值,是估计得到的平均值。所以,样本方差公式的本质并不是方差公式,而是由方差公式推导而来的...

2018-08-10 16:35:37 417

原创 Python_删除指定字符串

replace('abc','') #将abc删除  

2018-08-08 14:22:23 6578 2

原创 Linux_去除重复的行并显示重复次数

【1】sort 后 uniq 。注意:uniq 不会检查重复的行,除非它们是相邻的行。如果您想先对输入排序,使用sort -u。 uniq中有参数,可以实现重复次数的输出 http://man.linuxde.net/uniq【2】用awk数组   awk '{x[$0]+=1}END{for( i in x){print i,x[i]}}'...

2018-08-08 14:17:32 3034

原创 Python_write写文件失败

【1】背景:文件中存在ouput.write;执行程序后,ctrl z终止。发现write失败。【2】原因:文件通过write方法写入文件时,并不是及时的写入系统磁盘,而是首先写入到自己的缓存区[内存],当缓存区满了的时候才会异步写入到磁盘进行落地,否则永远不会写入真实磁盘文件 ...

2018-08-07 19:26:16 1936

原创 剑指offer_感悟

【1】参数检验【2】循环思想循环前:变量的初始化。指标分为指示变量和统计变量。 循环中:变量的改变 循环后(截止语句):指示变量的检验      注意:如果统计变量也需要检验,注意可能会发生越界。所以最好将统计变量的检验放在循环内,只检验指示变量。【3】栈和队列栈:正向存储,反向输出(有点自底向上的意思);本质为递归;【4】分治思想第一种:将问题拆分,拆分后的小问题与原...

2018-08-06 17:32:31 201

原创 意图识别_总结

【1】意图识别的难点:输入不规范 多意图。eg:仙剑奇侠传  游戏?电视剧?小说? 结果的可靠性。 实效性: iPhone5 7月1日上市销售                 6月30日的查询意图:新闻90%,百科10%                 7月1日的查询意图:新闻70%,购买25%,百科5%                 8月1日的查询意图:购买50%,资讯40%,...

2018-08-06 16:32:06 2273

原创 Hive_随机取样

【1】利用Hive中的rand简单随机取样order by rand(12345) limit 10000;【2】其他的取样方式见:https://www.jianshu.com/p/2b73e7c53355

2018-08-05 20:19:26 1881

原创 Linux_脱机管理/ps

【1】背景:如果你以远程连接的方式连接Linux主机,且以&的方式放到后台。那么你脱机了,工作就会停止【2】nohup 可以让你在脱机后,仍可以让工作继续进行。nohup filename.sh &【3】再次登录的话。可以 ps -l 查看进程。会发现工作还在执行中【4】信息的输出会定向到 ./nohup.out中。但要注意如果程序运行错误,会将错误也输出到noh...

2018-08-01 11:27:42 386

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除