自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 如何安装beatifulsoup

1. 什么是beatifulsoup? beatifulsoup官网http://www.crummy.com/software/BeautifulSoup/BeatifulSoup是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。...

2019-10-11 15:48:05

阅读数 54

评论数 0

转载 近似最近邻算法查找(ann)--01

Ann, Approximate Nearest Neighbor的缩写,就是近似最近邻搜索。 在机器学习领域,语义检索,图像识别,推荐系统等方向常涉及到的一个问题是:给定一个向量X=[x1,x2,x3...xn],需要从海量的向量库中找到最相似的前K个向量。通常这些向量的维度很高,对于在线服务...

2019-09-27 10:50:00

阅读数 330

评论数 0

原创 VIM设置tab和shift+>为4个空格

修改配置文件。 第一步: 打开配置文件 vim  /etc/vimrc  或  vim  ~/.vimrc 前者时系统范围配置文件,后者是个人配置文件。 第二步:在打开的文件中写入 set ts=4   #等号的后面不要加空格,直接写4 set expandtab   这样tab就是4...

2018-12-26 11:43:08

阅读数 186

评论数 0

原创 在Vim中查看、修改文件编码

:set fileencoding 即可显示文件编码格式。 如果你只是想查看其它编码格式的文件或者想解决 用Vim查看文件乱码的问题,那么在 ~/.vimrc 文件中添加以下内容: set encoding=utf-8 fileencodings=utf-8 这样,就可以让vim自动识别...

2018-12-17 10:48:38

阅读数 130

评论数 1

原创 Python 通过url获取图片尺寸、格式相关信息

假定给出一个URL,如何从服务器捕获该URL所对应的图片的相关信息呢? 利用Python的urllib及PIL中的Image即可轻松实现。 #coding:utf-8 import os import urllib import urllib2 import cStringIO from P...

2018-11-26 17:22:33

阅读数 1130

评论数 0

原创 python 删除文件夹、删除非空文件夹

一般删除文件时使用os库,然后利用os.remove(path)即可完成删除,如果删除空文件夹则可使用os.removedirs(path)即可,  但是如果需要删除整个文件夹,且文件夹非空时使用os.removedirs(path)就会报错了,此时可以使用shutil库,该库为python内置库...

2018-11-20 15:34:58

阅读数 1377

评论数 0

转载 Linux下安装软件,configure、make、make install 各自含义

正常的编译安装/卸载: 源码的安装一般由3个步骤组成:配置(configure)、编译(make)、安装(make install)。   configure文件是一个可执行的脚本文件,它有很多选项,在待安装的源码目录下使用命令./configure –help可以输出详细的选项列表。  ...

2018-08-09 11:31:10

阅读数 1580

评论数 0

原创 Linux 下安装openssl

【问题描述】 执行程序时,报Fail to find openssl/ssl.h from --headers错误,没有找到解决办法,所以决定重新安装openssl 【安装过程】 1、到git上下载安装包 https://github.com/openssl/openssl/release...

2018-08-08 17:25:51

阅读数 4338

评论数 0

原创 Linux系统 cmake2.8升级到cmake-3.9.2版本

1、查看当前版本 cmake --version   2、下载获得cmake-3.9.2源码  wget https://cmake.org/files/v3.9/cmake-3.9.2.tar.gz   3、解压、安装新版本 tar -xvf cmake-3.9.2.tar.gz ...

2018-08-08 11:06:07

阅读数 10197

评论数 4

原创 hadoopstreaming job中参数解释 python

    -D stream.map.output.field.separator :设置map输出中key和value的分隔符       -D stream.num.map.output.key.fields :  设置map程序分隔符的位置,该位置之前的部分作为key,之后的部分作为valu...

2018-07-25 15:17:37

阅读数 154

评论数 0

原创 数组(列表)全排列、组合实现方法 python

python语言简单、方便,其内部可以快速实现排列组合算法,下面做简单介绍:1、一个列表数据任意组合:【自带的库itertools.combinations】#_*_ coding:utf-8 _*_#__author__='dragon'import itertoolslis...

2018-06-22 14:16:47

阅读数 6532

评论数 1

转载 python中lambda的用法

一、lambda函数也叫匿名函数,即,函数没有具体的名称。先来看一个最简单例子:def f(x):return x**2print f(4)Python中使用lambda的话,写成这样g = lambda x : x**2print g(4)二、lambda和普通的函数相比,就是省去了函数名称而已...

2018-05-18 10:56:56

阅读数 206

评论数 0

原创 python向上取整,向下取整

1、python向下取整 方法: 一般使用floor除法,一般除法/,round()四舍五入函数 2、python向上取整 方法:  Python match.ceil函数  ceil(x)函数是向上取整,即取大于等于x的最接近整数。  import math  m...

2017-10-24 15:54:02

阅读数 21425

评论数 0

原创 Linux 文件末尾包含^M字符

一、背景 当我们把文件从Windows传到Linux环境时候,常常在每一行的末尾,会出现一些 ^M的字符.而这些字符会影响文件的正常读写和执行。 二、处理方法: 1、要去掉这些'^M'字符,有很多种办法,比如直接dox2unix【命令:dos2unix filenam...

2017-10-14 19:56:31

阅读数 2231

评论数 0

转载 N-gram详解分析

作者: 龙心尘 && 寒小阳 时间:2016年2月。 出处: http://blog.csdn.net/longxinchen_ml/article/details/50646528 http://blog.csdn.net/han_xiaoyang/ar...

2017-10-04 15:01:38

阅读数 5187

评论数 0

转载 Python+Hadoop Streaming实现MapReduce(如何给map和reduce的脚本传递参数)

设置参数      #!/bin/bash      hadoop fs -rmr trans_record/result      hadoop jar ./hadoop-streaming-2.0.0-mr1-cdh4.7.0.jar \           -input $1 ...

2017-09-10 11:25:06

阅读数 541

评论数 0

转载 pyhton列表合并、追加操作extend()、+

在实际应用中涉及到了列表合并的问题。 在应用append()时,发现列表是以一个元素的形式追加到列表上的,最后查询后用的是extend()方法,下面是区别   1.append()  向列表尾部追加一个新元素,列表只占一个索引位,在原有列表上增加 2.extend() 向列...

2017-08-25 15:02:33

阅读数 420

评论数 0

转载 python中counter()记数

一:定义一个list数组,求数组中每个元素出现的次数 如果用Java来实现,是一个比较复杂的,需要遍历数组list。 但是Python很简单:看代码 [python] view plain copy a = [1,4,2,3,2,3,4,2]  from coll...

2017-08-14 21:14:16

阅读数 3570

评论数 0

转载 webstorm 激活码、注册码

2017-06-15更新 之前都是使用2017.2.27的方法,版本是2017.1.1,还没提示过期,但是根据评论说这个链接已经失效了,评论也给出了个新地址:http://idea.iteblog.com/key.php 转自: http://blog.csdn.net/it_talk/ar...

2017-07-15 15:15:26

阅读数 406

评论数 0

原创 python字符串转日期,日期相加减

1、字符串转日期: 通过 time.srtptime()实现 import time str_time = time.srtptime("20170620","%Y%m%d") print str_time #输出time.struct_time(...

2017-06-20 20:14:13

阅读数 4565

评论数 0

转载 用python写MapReduce函数——以WordCount为例

阅读目录 1. Python MapReduce 代码2. 在Hadoop上运行python代码3. 利用python的迭代器和生成器优化Mapper 和 Reducer代码4. 参考       尽管Hadoop框架是用java写的,但是Hadoop程序不限于java,可以用pyth...

2017-05-25 14:03:56

阅读数 910

评论数 0

转载 搜索意图识别浅析

转自:http://www.tuicool.com/articles/aIby6be 对于搜索引擎来讲,很多情况下只需要用户在搜索输入框内输入所需要查询的内容就可以了,其余的事情就全部交给搜索引擎去处理。理想的情况下,搜索引擎会优先返回用户想要的结果。理想很丰满,但总会存在一些骨感的现实,用...

2017-05-22 21:15:26

阅读数 11783

评论数 2

原创 Linux下zip和unzip解压缩文件命令

zip命令可以用来将文件压缩成为常用的zip格式。unzip命令则用来解压缩zip文件。 1. 我想把一个文件abc.txt和一个目录dir1压缩成为yasuo.zip: # zip -r yasuo.zip abc.txt dir1 2.我下载了一个yasuo.zip文件,想解压缩: #...

2017-05-18 11:06:53

阅读数 428

评论数 0

转载 利用Linux命令行进行文本按行去重并按重复次数排序

linux命令行提供了非常强大的文本处理功能,组合利用linux命令能实现好多强大的功能。本文这里举例说明如何利用Linux命令行进行文本按行去重并按重复次数排序。主要用到的命令有sort,uniq和cut。其中,sort主要功能是排序,uniq主要功能是实现相邻文本行的去重,cut可以从文本行中...

2017-05-14 15:25:10

阅读数 1057

评论数 0

原创 awk工作中常用命令介绍---不断更新中

1、删除文件的第一行数据(NR记录行数)      awk '{if(NR>1) print $0}'  file > new_file 2、输出指定的列,从1开始记数的。比如输出第三列数据     awk -F"\T"  '{p...

2017-05-11 17:13:25

阅读数 215

评论数 0

原创 python开发中用到的知识点汇总---不断更新中

1、字典dictionary查找,找到key对应的value,则返回对应的value;若无对应的key,则返回默认值---函数dic.get() dic.get(key, defalut)        【注】若不需要默认值,也可以通过dic[key]方式获取value 2、去除行尾的换行符---...

2017-05-11 16:43:22

阅读数 395

评论数 0

原创 shell date命令总结

date 可以用来显示或设定系统的日期与时间,在显示方面,使用者可以设定欲显示的格式,格式设定为一个加号+后接数个标记,其中可用的标记列表如下 : 时间方面 : % : 印出 % %n : 下一行 %t : 跳格 %H : 小时(00..23) %I : 小时(01..12) %...

2017-05-02 22:11:04

阅读数 514

评论数 0

转载 Python 字典中一键对应多个值

Python 字典中一键对应多个值 #encoding=utf-8   print '中国'   #字典的一键多值   print'方案一 list作为dict的值 值允许重复'   d1={} key=1 valu...

2017-05-01 23:07:56

阅读数 10527

评论数 0

转载 md5校验 md5sum

md5校验,有很小的概率不同的文件生成的md5可能相同。比md5更安全的校验算法还有SHA*系列的。 在网络传输时,我们校验源文件获得其md5sum,传输完毕后,校验其目标文件,并对比如果源文件和目标文件md5 一致的话,则表示文件传输无异常。否则说明文件在传输过程中未正确传输。 ...

2017-04-13 15:57:13

阅读数 581

评论数 0

转载 hadoop命令大全

FS Shell cat chgrp chmod chown copyFromLocalcopyToLocalcp dudus expunge get getmerge ls lsrmkdir movefromLocal mv put rm rmr set...

2017-04-13 15:40:11

阅读数 207

评论数 0

转载 Windows如何压缩tar.gz格式

Windows如何压缩tar.gz格式 具体步骤如下: 一、下载7-ZIP,安装后直接在你想要打包的文件上点右键菜单,会有一个7-ZIP的子菜单栏,类似WinRAR和WinZIP的那种右键菜单。 然后选“7-ZIP”->“添加到压缩档案”,在弹出来的窗口里有个“压缩格式”的选项,里...

2017-04-11 16:01:40

阅读数 1347

评论数 0

转载 Shell特殊变量:Shell $0, $#, $*, $@, $?, $$和命令行参数

前面已经讲到,变量名只能包含数字、字母和下划线,因为某些包含其他字符的变量有特殊含义,这样的变量被称为特殊变量。 例如,$ 表示当前Shell进程的ID,即pid,看下面的代码: $echo $$ 运行结果 29949 特殊变量列表 变量 含义 $0 当前脚本的文件名 ...

2017-04-10 11:18:34

阅读数 167

评论数 0

原创 Linux常用命令:文件解压缩、去重、合并为一个文件、一个文件的指定行写入另一个文件(不断更新中...)

1、如何将指定文件中的几行内容写入到另一个文件 sed  -n  ‘1,10’p  file1.txt >> file2.txt 将file1中文件的前十行写入到file2中

2017-04-07 16:37:59

阅读数 1452

评论数 0

原创 Linux下查看当前文件大小的命令

1、(方法一)ls -lht会列出当前目录下每个文件的大小,同时也会给出当前目录下所有文件大小总和      【查看谬个文件的大小,】 2、(方法二)du -sh *也会列出当前文件夹下所有文件对应的大小      【把*替换为具体的文件名,会给出具体文件的大小】

2017-04-07 14:12:48

阅读数 39312

评论数 0

转载 python time()格式分析

1、可以试下下面的方式来取得当前时间的时间戳: import time print time.time() 输出的结果是: 1279578704.6725271 2、但是这样是一连串的数字不是我们想要的结果,我们可以利用time模块的格式化时间的方法来处理: time.localt...

2017-04-06 20:39:23

阅读数 266

评论数 0

转载 Linux 指令详解 alias 设置别名

我们在使用Linux中使用较长的命令而且要经常要使用时,总是会使用别名,这里就简单的介绍一下别名alias 指令:alias 设置指令的别名 语法:#  alias name='command line' 参数: -p:    打印出现有的别名(唯一的参数) 若不加...

2017-04-06 19:59:15

阅读数 659

评论数 0

转载 pycharm激活码(注册码)

pycharm最新激活码:16年的已经无效 BIG3CLIK6F-eyJsaWNlbnNlSWQiOiJCSUczQ0xJSzZGIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNzaWduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpbCI6IiIs...

2017-04-06 11:18:32

阅读数 689

评论数 0

转载 jieba结巴分词--关键词抽取(核心词抽取)

转自:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢! 1 简介 关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依...

2017-03-31 16:57:25

阅读数 19456

评论数 1

转载 斯坦福大学CS224d 干货(视频,笔记,论文)

欢迎转载,转载注明出处: http://blog.csdn.net/neighborhoodguo/article/details/46868143 这个博客是用来分享cs224d的各种学习资料的哦,我下载整理学习这些可用了好久呢,希望能帮助到想要学习这方面知识的朋友,视频都是从Youtu...

2017-03-27 17:54:30

阅读数 1830

评论数 0

原创 python datetime.datetime is not JSON serializable 报错问题解决

1、问题描述 使用python自带的json,将数据转换为json数据时,datetime格式的数据报错:datetimeTypeError: datetime.datetime(2017, 3, 21, 2, 11, 21) is not JSON serializable。 2、解...

2017-03-21 16:49:05

阅读数 15723

评论数 4

提示
确定要删除当前文章?
取消 删除