自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

转载 逗逼日记_学习方法

本文转自知乎:白诗诗的文章 1.了解:学习的最初20小时明确初学阶段会有不适感和挫败感,熬过就能得到一个新的领域    启示:正视这种挫败感 2.了解:在学习一门新的知识短时间集中注意力并不难,但过一段时间后做不到很好的放松,效率就会下降    启示:做到放松 3.方法:如何保持高效呢? ...

2017-10-09 18:56:48 205 0

转载 FM/FMM算法笔记

原文链接 FM\\FMM优点:特征稀疏时保持良好性能 FM原理: onehot的编码后特征极度稀疏,特征空间大(升维双刃剑:线性可分、过拟合维度爆炸--效果为王) 通过多项式交叉后,交叉特征含有更多的特征值为零样本。但是为了训练权重,让不同的特征权重区分化更多的依赖于该特征下非零的样本 ...

2018-10-17 16:23:29 2352 0

原创 C++_Linux环境下编译

make: gcc用来编译一个复杂的程序其实并不简单,每个主程序和子程序均需要编译命令和链接程序,很复杂 make用来解决这个问题,当前目录下搜索Makefile ...

2018-09-20 14:50:05 79 0

转载 awk_强大功能:字符串长度/切割/正则匹配/大小写转化

【1】https://blog.csdn.net/xibeichengf/article/details/51346632

2018-08-29 10:57:12 2804 0

原创 Python_独特语法/strip

is  和  == Python中万物皆对象,每个对象有3个属性。id-对象地址,type-对象类型,value-值 is:比较对象地址是否相同。而==:比较value是否相同 not 的用法 判断 if not 5,类似!= 注意 if not x  和 if x is None 并不等价。...

2018-08-22 14:43:26 109 0

原创 意图识别_Query特征提取

【1】背景/术语: Search_Session:用户与搜索引擎的一次完整的过程。信息包括:Query、Title、如果用户在Session期间变换了查询词,后续的搜索和点击均会被记录,直到脱离搜索。理解:一个样本即Query和点击的Title 【2】Query的意图识别和传统的文本分类问题有如...

2018-08-16 11:21:12 1989 0

原创 数学_样本方差_分母为n-1的理解

【1】背景:一直对样本方法的分母为n-1很困惑。原因:方差就是n个样本减去均值平方项的平均值。既然是平均值,那么分母必须是n。如果为n-1的话怎么能成为方差呢? 【2】解决:https://www.zhihu.com/question/20099757 因为样本方差中的平均值并不是准确的平均值...

2018-08-10 16:35:37 145 0

原创 Python_删除指定字符串

replace('abc','') #将abc删除  

2018-08-08 14:22:23 4592 2

原创 Linux_去除重复的行并显示重复次数

【1】 sort 后 uniq 。注意:uniq 不会检查重复的行,除非它们是相邻的行。如果您想先对输入排序,使用sort -u。 uniq中有参数,可以实现重复次数的输出 http://man.linuxde.net/uniq 【2】 用awk数组   awk '{x[$0]+...

2018-08-08 14:17:32 1925 0

原创 Python_write写文件失败

【1】背景:文件中存在ouput.write;执行程序后,ctrl z终止。发现write失败。 【2】原因:文件通过write方法写入文件时,并不是及时的写入系统磁盘,而是首先写入到自己的缓存区[内存],当缓存区满了的时候才会异步写入到磁盘进行落地,否则永远不会写入真实磁盘文件  ...

2018-08-07 19:26:16 854 0

原创 剑指offer_感悟

【1】参数检验 【2】循环思想 循环前:变量的初始化。指标分为指示变量和统计变量。 循环中:变量的改变 循环后(截止语句):指示变量的检验      注意:如果统计变量也需要检验,注意可能会发生越界。所以最好将统计变量的检验放在循环内,只检验指示变量。 【3】栈和队列 栈:正向存储,反...

2018-08-06 17:32:31 118 0

原创 意图识别_总结

【1】意图识别的难点: 输入不规范 多意图。eg:仙剑奇侠传  游戏?电视剧?小说? 结果的可靠性。 实效性: iPhone5 7月1日上市销售                 6月30日的查询意图:新闻90%,百科10%                 7月1日的查询意图:新闻70%...

2018-08-06 16:32:06 1341 0

原创 Hive_随机取样

【1】利用Hive中的rand简单随机取样 order by rand(12345) limit 10000; 【2】其他的取样方式见:https://www.jianshu.com/p/2b73e7c53355

2018-08-05 20:19:26 1474 0

原创 Linux_脱机管理/ps

【1】背景:如果你以远程连接的方式连接Linux主机,且以&的方式放到后台。那么你脱机了,工作就会停止 【2】nohup 可以让你在脱机后,仍可以让工作继续进行。 nohup filename.sh & 【3】再次登录的话。可以 ps -l 查看进程。会发现...

2018-08-01 11:27:42 145 0

原创 Linux_shell脚本语法

【1】命令结果赋值给变量:用 ` `,会先运行双反引号内的内容 【2】

2018-07-31 11:57:45 53 0

原创 python_与或非逻辑/真假值事例

【1】Python的与或非与C++一样两种:逻辑运算/位运算 【2】Python的逻辑运算和C++的不同,为:and、or、not 【3】一些常见的假值 "spam" True "" False [] False ...

2018-07-28 17:27:13 11845 0

原创 Linux_查看linux日志/查看日志的命令 more/less/tail/sed

【1】原来linux上是有日志的,鸟哥私房 P576页 【2】more:类似cat,但是会以一页一页的显示。空白下翻,b(back)上翻。 【3】less:类似more。但是功能更方便。pagedown/pageup实现翻页 【4】tail尾部几行:类似head 【5】sed:好像很强大的...

2018-07-27 20:18:49 647 0

原创 Python_异常处理try

name = ['rr','ww'] try: print(name[2]) print("继续") except : print('下标越界') else: print('...

2018-07-26 15:17:57 63 0

原创 Python_打包py文件

【1】创建一个virtualenv环境:virtualenv也就是虚拟环境。可以在同一个计算机中隔离多个python版本,比如python2,python3; mkdir SandwichApp    cd SandwichApp # Use virtualenv to create an...

2018-07-25 19:42:55 264 0

原创 Hadoop_知识点

【1】拿到数据包时,什么集群已经设置好了,尴尬 【2】运行:mapreducer的运行方式已经写好脚本放到bin里了,只需将tool/hadoop-client/hadoop放置到.bashrc设置里即可。 【3】getmerge:hadoop fs -getmerge <src...

2018-07-25 17:19:23 58 0

原创 Python_print()/文件读写open()/str.find()/与或逻辑/取索引/while/python无double/map

【1】print 可以输出好多数据类型。包括:str、int、list 【2】f=open(filename,mode)。f.read()将文本全部取出;f.readlines()是一个迭代器,for line in f.readlines 使用 【3】str.find() 不是找不到会返回n...

2018-07-25 11:14:47 296 0

原创 GitHub_知识点

【1】当你克隆代码库时,会将所有的层级结构都下载下来。但是对线上库影响对文件只有对应对那个。在该文件夹之上对任何文件操作都不会产生影响 【2】直接用git status  查看状态。方便 【3】commit时,备注很重要。会建立一个卡片来提供额外信息以方便管理。而备注会自动链接到这个卡片 【...

2018-07-25 10:51:55 53 0

原创 NLP_中文分词有向无环图:DAG

【1】DAG:可以用来记录句子不同切分状态的集合,“向”即句子开始到结束的地方。假定句子的开始字符为 s,以“他们有意见分歧”这个句子为例,可以得到如下的有向无环图: ...

2018-07-24 10:08:43 1378 0

原创 NLP_中文分词/jieba分词原理

【1】基于词典分词方法: 将待分析的汉字串与词典进行匹配。若在词典中找到某个词,则分出一个词。主要有正向最大匹配;逆向最大匹配;最少切分;基于索引树等。 改进:一、将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法;二、改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切...

2018-07-23 20:56:25 592 0

原创 NLP_语言理解

【1】入门参考:http://bit.baidu.com/news/detail/id/24.html 依存句法分析技术:找到句子的各个组成成分。比如:“给我推荐一家可以听到蛙声的餐馆”。分析:推荐和餐馆是主要意图,而听见和蛙声是修饰成分,对用户的意图进行了修饰和限定。 基于语义理解技术:基于...

2018-07-23 20:22:36 203 0

原创 NLP_deepQA初探

【1】deepQA实质是基于知识库的问答系统 【2】会从问题中提取需要特殊处理的字符,比如:一词多义、句法、语义等 【3】会对问题进行分类等 【4】资料:https://www.guokr.com/article/17295/...

2018-07-23 16:04:58 674 0

原创 机器学习_基本术语:ASR

【1】ASR:Automatic Speech Recognition 语音识别  

2018-07-23 10:59:25 214 0

原创 Linux_set/export/单双双反引号/dirname/diff/dos2unix/可执行文件执行方式

【1】set:可以设置shell的执行方式。          -e 若指令传回值不等于0,退出shell。shell也是程序,执行正确也会return 0。用法待学习          -x 执行命令时,会显示该命令。          -o pipefail :包含管道命令的语句的返回值...

2018-07-20 15:53:30 228 0

原创 Python2_模块已经安装缺无法调用的情况/#!/usr/bin/env python与#!/usr/bin/python的区别

【1】问题产生:已经安装了jieba模块,但是在调用时报错:模块不存在 【2】问题解决:第一行由#!/usr/bin/python改为#!/usr/bin/env python 【3】理由:脚本语言的第一行,目的就是指出,你想要你的这个文件中的代码用什么可执行程序去运行它,就这么简 #!/u...

2018-07-19 15:22:32 568 0

原创 Python_列表/元组

【1】列表类似与数组,用[ ]框起。而元组因为带了圆字,用圆括号( )框起。 【2】元组是不可变的,这一点就造成元组可作为字典key。很方便 【3】所以说一般结构性(eg点坐标)可以定义为元组,集合性的定义为列表...

2018-07-18 16:33:54 57 0

原创 Linux_grep—多个条件

【1】多个条件,-E可能代表either,表任意 grep -E '123|abc' filename // 找出文件(filename)中包含123或者包含abc的行  

2018-07-18 13:56:06 1193 0

原创 NLP_词性分析

【1】问题产生:为了识别query的意图,采用了人工配模版的方法。第一步:分析query结构。第二步:在每一个结构下可能出现的词。这样当一个query出现的时候就会严格根据模版、模版下的词来匹配。匹配成功即对应模版的意图。这样每一次都需要人工太low了。 【2】解决方法一:分析句子结构能否利用词...

2018-07-18 10:04:27 1325 0

原创 Python_python之list操作

【1】两个list连接 【2】list内元素以某符号连接为字串

2018-07-17 16:20:45 191 0

原创 Python_Python2的编码问题详解

【0】str指编码为utf8,ascii等,所以解码编码实质为str到unicode的转换 【1】python2默认以ascii码编码,因为ascii中并没有对汉字进行编码,所以如果你的源代码中出现汉字的话,导致无法编码,会报错。所以要换一种编码方式:utf-8 #-*- coding:ut...

2018-07-17 15:37:57 117 0

原创 Python_Python2利用urllib2抓取中文网页乱码的问题

今天想用urllib2抓去网页源码,出现了问题,print打印显示乱码。 代码一: response=urllib2.urlopen('http://caipiao.163.com/award/').read() 打印之后出现乱码问题。 【1】分析:首先怀疑是编码问题...

2018-07-17 14:18:40 405 0

原创 算法_八数码问题启发式搜索(C++)

#include<iostream> #include<vector> #include<string> #include<queue> using namespace std; int...

2018-05-31 17:05:47 868 0

转载 C++_报错:Stack around the variable XX was corrupted

【1】https://blog.csdn.net/gamesdev/article/details/6505270

2018-05-30 19:15:24 261 0

转载 ubuntu_搜狗输入法安装

【1】https://jingyan.baidu.com/article/a3aad71aa1abe7b1fa009641.html亲测有效

2018-05-23 22:00:41 97 0

转载 Ubuntu_Linux 环境下使用g++编译C++

【1】https://blog.csdn.net/m0_38034312【2】gcc编译时需要加lstdc++选项原因:gcc不会自动连接c++标准库。

2018-05-23 11:25:52 193 0

转载 Ubuntu_shell的含义

【一】 shell的含义:首先shell的英文含义是“壳”;它是相对于内核来说的,因为它是建议在核的基础上,面向于用户的一种表现形式,比如我们看到一个球,见到的是它的壳,而非核。Linux中的shell,是指一个面向用户的命令接口,表现形式就是一个可以由用户录入的界面,这个界面也可以反馈运行信息;...

2018-05-22 20:16:41 225 0

提示
确定要删除当前文章?
取消 删除