自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 Linux_shell脚本语法

【1】命令结果赋值给变量:用 ` `,会先运行双反引号内的内容 【2】

2018-07-31 11:57:45 118

原创 python_与或非逻辑/真假值事例

【1】Python的与或非与C++一样两种:逻辑运算/位运算 【2】Python的逻辑运算和C++的不同,为:and、or、not 【3】一些常见的假值 "spam" True "" False [] False {} False 1 True 0.0 False None False  ...

2018-07-28 17:27:13 14023

原创 Linux_查看linux日志/查看日志的命令 more/less/tail/sed

【1】原来linux上是有日志的,鸟哥私房 P576页 【2】more:类似cat,但是会以一页一页的显示。空白下翻,b(back)上翻。 【3】less:类似more。但是功能更方便。pagedown/pageup实现翻页 【4】tail尾部几行:类似head 【5】sed:好像很强大的工具(替换/查找/删除)用到再来总结...

2018-07-27 20:18:49 1001

原创 Python_异常处理try

name = ['rr','ww'] try: print(name[2]) print("继续") except : print('下标越界') else: print('下表未越界') 【1】可能出错的代码放到try内,有错会直接退出try 【2】若try内出错,执行except: 【3】若try内不出错,执行else: 【4】注意:try和excep...

2018-07-26 15:17:57 143

原创 Python_打包py文件

【1】创建一个virtualenv环境:virtualenv也就是虚拟环境。可以在同一个计算机中隔离多个python版本,比如python2,python3; mkdir SandwichApp    cd SandwichApp # Use virtualenv to create an isolated environment virtualenv 环境名 source venv/...

2018-07-25 19:42:55 605

原创 Hadoop_知识点

【1】拿到数据包时,什么集群已经设置好了,尴尬 【2】运行:mapreducer的运行方式已经写好脚本放到bin里了,只需将tool/hadoop-client/hadoop放置到.bashrc设置里即可。 【3】getmerge:hadoop fs -getmerge <src> <localdst> [addnl]重点可以讲将源目录中所有的文件连接成本地目标文件。a...

2018-07-25 17:19:23 144

原创 Python_print()/文件读写open()/str.find()/与或逻辑/取索引/while/python无double/map

【1】print 可以输出好多数据类型。包括:str、int、list 【2】f=open(filename,mode)。f.read()将文本全部取出;f.readlines()是一个迭代器,for line in f.readlines 使用 【3】str.find() 不是找不到会返回null,你真傻。0/none都会是假值,0代表找到在第一位。所以找不到会返回-1。 【4】与c++不...

2018-07-25 11:14:47 622

原创 GitHub_知识点

【1】当你克隆代码库时,会将所有的层级结构都下载下来。但是对线上库影响对文件只有对应对那个。在该文件夹之上对任何文件操作都不会产生影响 【2】直接用git status  查看状态。方便 【3】commit时,备注很重要。会建立一个卡片来提供额外信息以方便管理。而备注会自动链接到这个卡片 【4】git pull origin master:取回主机对分支对本地对master合并。 【5】g...

2018-07-25 10:51:55 142

原创 NLP_中文分词有向无环图:DAG

【1】DAG:可以用来记录句子不同切分状态的集合,“向”即句子开始到结束的地方。假定句子的开始字符为 s,以“他们有意见分歧”这个句子为例,可以得到如下的有向无环图: ...

2018-07-24 10:08:43 2099

原创 NLP_中文分词/jieba分词原理

【1】基于词典分词方法: 将待分析的汉字串与词典进行匹配。若在词典中找到某个词,则分出一个词。主要有正向最大匹配;逆向最大匹配;最少切分;基于索引树等。 改进:一、将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法;二、改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些 带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错...

2018-07-23 20:56:25 930

原创 NLP_语言理解

【1】入门参考:http://bit.baidu.com/news/detail/id/24.html 依存句法分析技术:找到句子的各个组成成分。比如:“给我推荐一家可以听到蛙声的餐馆”。分析:推荐和餐馆是主要意图,而听见和蛙声是修饰成分,对用户的意图进行了修饰和限定。 基于语义理解技术:基于深度学习来计算query和文本语义的关联。eg:一个query包括用户点击的正例和未点击的负例。框架是...

2018-07-23 20:22:36 353

原创 NLP_deepQA初探

【1】deepQA实质是基于知识库的问答系统 【2】会从问题中提取需要特殊处理的字符,比如:一词多义、句法、语义等 【3】会对问题进行分类等 【4】资料:https://www.guokr.com/article/17295/...

2018-07-23 16:04:58 1085

原创 机器学习_基本术语:ASR

【1】ASR:Automatic Speech Recognition 语音识别  

2018-07-23 10:59:25 386

原创 Linux_set/export/单双双反引号/dirname/diff/dos2unix/可执行文件执行方式

【1】set:可以设置shell的执行方式。          -e 若指令传回值不等于0,退出shell。shell也是程序,执行正确也会return 0。用法待学习          -x 执行命令时,会显示该命令。          -o pipefail :包含管道命令的语句的返回值,会变成最后一个返回非零的管道命令的返回值。eg 如果一个管道命令最后一个是echo,那他将可能一直返...

2018-07-20 15:53:30 641

原创 Python2_模块已经安装缺无法调用的情况/#!/usr/bin/env python与#!/usr/bin/python的区别

【1】问题产生:已经安装了jieba模块,但是在调用时报错:模块不存在 【2】问题解决:第一行由#!/usr/bin/python改为#!/usr/bin/env python 【3】理由:脚本语言的第一行,目的就是指出,你想要你的这个文件中的代码用什么可执行程序去运行它,就这么简 #!/usr/bin/python是告诉操作系统执行这个脚本的时候,调用/usr/bin下的python解释器...

2018-07-19 15:22:32 1161

原创 Python_列表/元组

【1】列表类似与数组,用[ ]框起。而元组因为带了圆字,用圆括号( )框起。 【2】元组是不可变的,这一点就造成元组可作为字典key。很方便 【3】所以说一般结构性(eg点坐标)可以定义为元组,集合性的定义为列表...

2018-07-18 16:33:54 123

原创 Linux_grep—多个条件

【1】多个条件,-E可能代表either,表任意 grep -E '123|abc' filename // 找出文件(filename)中包含123或者包含abc的行  

2018-07-18 13:56:06 2050

原创 NLP_词性分析

【1】问题产生:为了识别query的意图,采用了人工配模版的方法。第一步:分析query结构。第二步:在每一个结构下可能出现的词。这样当一个query出现的时候就会严格根据模版、模版下的词来匹配。匹配成功即对应模版的意图。这样每一次都需要人工太low了。 【2】解决方法一:分析句子结构能否利用词性标注来完成;结构下的词可否利用词性/词义聚类来实现...

2018-07-18 10:04:27 2712

原创 Python_python之list操作

【1】两个list连接 【2】list内元素以某符号连接为字串

2018-07-17 16:20:45 280

原创 Python_Python2的编码问题详解

【0】str指编码为utf8,ascii等,所以解码编码实质为str到unicode的转换 【1】python2默认以ascii码编码,因为ascii中并没有对汉字进行编码,所以如果你的源代码中出现汉字的话,导致无法编码,会报错。所以要换一种编码方式:utf-8 #-*- coding:utf-8 -*- 【2】现在汉字可以被编码了,但是编码完成就能正确运行了吗??不能,因为print是打...

2018-07-17 15:37:57 223

原创 Python_Python2利用urllib2抓取中文网页乱码的问题

今天想用urllib2抓去网页源码,出现了问题,print打印显示乱码。 代码一: response=urllib2.urlopen('http://caipiao.163.com/award/').read() 打印之后出现乱码问题。 【1】分析:首先怀疑是编码问题,于是看了网页源代码,发现是utf-8编码,编码是正确的。 <!DOCTYPE HTML> <htm...

2018-07-17 14:18:40 686

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除