杂七杂八
文章平均质量分 61
lpty
走进科学
展开
-
ubuntu16.04下安装CRF++
一、环境1、ubuntu16.04 LTS 2、CRF++-0.58二、下载源文件在这里下载CRF++包:地址三、安装CRF1、解压,到目录中执行sudo ./configure sudo make sudo make install 2、安装CRFPP进入CRF++-0.58/python路径下python setup.py buil...原创 2018-03-16 15:01:12 · 1278 阅读 · 0 评论 -
服务器下的多任务窗口--screen
前言在服务器上执行一些时间较长的任务时,我们希望可以暂时离开,等待任务执行一段时间后再查看任务状况。安装yum install screen使用介绍创建一个新窗口screen -S name暂时离开该窗口CTRL+A+D查看所有窗口screen -ls返回窗口screen -r name退出目前窗口exit窗口共享screen -x name原创 2017-07-10 10:00:00 · 2315 阅读 · 1 评论 -
服务器下的python调试方法
前言由于开发环境与服务器部署环境不一致,有时候总会遇到一些奇怪的问题,这是如果可以进行单步调试,对于解决问题将有极大帮助。安装方式调试方法单步调试python -m ipdb xxx.py断点在需要打断点的地方加上下述代码from ipdb import set_traceset_trace()运行到目标位置中断程序,出现提示符,进入ipython环境常用命令n(下一步)ENTER(重复上原创 2017-07-07 23:15:56 · 5078 阅读 · 0 评论 -
配置vim成为python开发IDE
前言笔者之前一直使用Pycharm作为开发IDE,在图形界面下Pycharm还是比较友好的。但在shell窗口下,只能使用vi这类编辑器,没了自动补全功能,对开发效率还是有所影响。环境centos7vim7.4配置步骤1 基础配置这里我用了github上的一个开源配置vim-for-server,按说明配置即可2 自动补全 jedi-vim(1)安装jedipip install jedi(原创 2017-07-07 22:39:32 · 3602 阅读 · 0 评论 -
csr_matrix和csc_matrix简析
一、概念csr_matrix(Compressed Sparse Row matrix)或csc_matric(Compressed Sparse Column marix),为压缩稀疏矩阵的存储方式。这里均以scipy包中的方法作为例子,具体可看:文档二、简析1、scipy.sparse.csr_matrix>>> indptr = np.array([0, 2...原创 2018-04-10 11:21:59 · 14032 阅读 · 2 评论 -
模型调参利器--hyperopt
一、前言在机器学习中,模型的训练需要花费大量的时间。而每一个算法在训练前都需要配置数量不一的超参数,参数对训练结果的影响相当大。 因此,超参数的优化是一件相当重要,却又费时费力的事。 Hyperopt提供了一个优化接口,这个接口接收一个评估函数和参数空间,能计算出空间内的一个点的损失函数值,简化了调参过程。二、实战通过使用感知机判别鸢尾花数据的例子,熟悉一下hyper库的用法。...原创 2018-04-18 14:16:03 · 5566 阅读 · 0 评论 -
ubuntu16.04下安装kenlm
一、背景kenlm是一个语言模型工具,安装过程依赖较多,记录一下安装过程。二、步骤注意以下安装均在root用户下执行1、boost在boost官网下载boost:http://www.boost.org,这里下载了boost 1.67cd boost./bootstrap.sh./b2 install2、xzwget http://tukaani.or...原创 2018-04-18 21:00:24 · 4446 阅读 · 0 评论 -
linux下的缓存机制
一、缓存在linux系统下,free命令可以看到系统内存使用情况:上图各个参数解释如下:1、Memtotal:总内存used:已使用的内存free:空闲的内存shared:当前已废弃内存buffers Buffer:I/O缓存,用于内存和硬盘的缓冲cached Page:高速缓存,用于CPU和内存之间的缓冲关系:total = used + free2、Swap(-buf...原创 2018-10-11 16:56:27 · 600 阅读 · 0 评论 -
ORACLE锁表暴力解决方法
一、概述关于oracle锁详见:https://www.cnblogs.com/zhoading/p/8547320.html下述方法为处理ORA-00054:资源正忙,要求指定NOWAIT,这种问题。二、方法1、找出被锁对象select l.session_id,o.owner,o.object_name from v$locked_object l,dba_objects o whe...原创 2018-10-19 10:45:46 · 419 阅读 · 0 评论 -
linux批量杀死进程
一、前言一般服务器杀死进程直接用kill就可以了,但如果程序出问题,启了一大堆进程,一个个关掉那太恐怖了。二、实战sudo ps aux|grep xxx|awk '{print $2}'|xargs kill -9这里是批量杀死进程名包含xxx的进程,记录做个备忘。原创 2017-11-28 10:08:59 · 7069 阅读 · 1 评论 -
Spark及HDFS环境下使用python的wordcount实例
一 前言本文基于hadoop及spark完全分布式环境,详情查看以下文章:1 Hadoop环境2 spark环境二 实例代码默认存放路径:/usr/local/work1.在HDFS上已经存放了文档,上传方式在我另一篇文章中有,这里就不贴出来了2.wordcount.pyfrom pyspark import SparkContextinputFil原创 2017-01-24 17:17:00 · 5705 阅读 · 0 评论 -
ubuntu16.04LTS下Spark完全分布式搭建
本文章spark是在Hadoop2.7完全分布式环境下搭建的,相关配置如下:1、ubuntu16.04LTS2、jdk1.8._1113、Hadoop2.7.3一 工具准备1.spark-2.1.0-bin-hadoop2.7.tgz(下载地址)2.scala-2.12.1.tgz(下载地址)二 环境搭建1.scala安装(1)解压scala-2.12.1.tg原创 2017-01-24 16:34:03 · 4571 阅读 · 0 评论 -
基于docker的环境搭建
一、简介Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。二、应用Docker这种技术跟平常用的虚拟机很相似,但相比之下更加轻量。在工程化部署项目的时候非常好用,它实际上解决了一个开发中的痛点,开发环境和测试、生产环境的一致性。原创 2017-11-27 20:40:08 · 851 阅读 · 0 评论 -
ubuntu16.04下安装Scrapy
一 安装环境1 系统环境:ubuntu16.042 python版本:2.7.12二 安装1 安装pipsudo pip install python-pip2 安装Scrapy依赖库sudo apt-get install python-devsudo apt-get install libevent-devsudo apt-get install libssl-de原创 2017-02-27 23:56:07 · 2669 阅读 · 0 评论 -
利用sas软件将txt文档转为excel文档
一、前言在python爬虫抓取拉勾网职业信息这篇博客中,已经抓取了拉勾网数据分析职位的信息并储存在本地,下面介绍一下如果将txt文档转化为csv文档。二、实战这里要注意的是,为了在sas中数据步编写方便,爬虫储存在本地的数据格式有所改动,后边会详细说明。1、数据读取libname lagou 'F:\lagou';filename intxt 'F:\lagou\深圳.txt原创 2017-02-04 21:52:16 · 2501 阅读 · 0 评论 -
win7下安装ubutun双系统
win7下使用U盘安装ubutun双系统原创 2017-01-13 21:36:25 · 1347 阅读 · 0 评论 -
ubutun16.04LTS获取root账户并登录
ubutun16.04LTS获取root账户并登录原创 2017-01-13 22:29:57 · 1644 阅读 · 0 评论 -
ubuntu16.04LTS下Hadoop2.7.3完全分布式搭建
最近在看Hadoop相关的资料,在这里做一些整理,下面是Hadoop环境搭建的详细步骤。一、工具准备1、ubuntu16.04LTS(安装方式)2、jdk1.8._111(下载地址)3、Hadoop2.7.3(下载地址)二、环境搭建注:为了搭建方便,我都是使用root账户,如何获取root账户可看我的另一篇博客1、首先更新一下apt,防止有些软件更新失败apt-ge原创 2017-01-14 15:53:31 · 2686 阅读 · 0 评论 -
使用python实现MapReduce的wordcount实例
Hadopp的基本框架是用java实现的,而各类书籍基本也是以java为例实现mapreduce,但笔者日常工作都是用python,故此找了一些资料来用python实现mapreduce实例。一、环境1、Hadoop-2.7.3完全分布式搭建()2、python3.5二、基本思想介绍使用python实现mapreduce调用的是Hadoop Stream,主要利用STDIN(标原创 2017-01-14 18:15:11 · 8397 阅读 · 2 评论 -
python实现对HDFS的文件操作
在HDFS中,要实现对文件的操作,一般可以在shell中发送指令完成,但这样太麻烦了。当然我们可以调用HDFS的API,这里我们可以使用python的pyHdfs库来实现对HDFS的文件操作。一、环境准备1、python3.52、pyHdfs二、pyHdfs安装1、pip3 install --upgrade pip先更新pip,防止版本过低2、pip3 insta原创 2017-01-14 20:49:12 · 14301 阅读 · 0 评论 -
Linux下编译安装gcc
引言1、gcc下载地址:ftp://ftp.mirrorservice.org/sites/sourceware.org/pub/gcc/releases2、GMP、MPFR、MPC下载地址:ftp://gcc.gnu.org/pub/gcc/infrastructure/步骤1、安装gcc需要依赖GMP、MPFR、MPC, 而MPFR依赖GMP,而MPC依赖GMP和MPFR,所以要先安装...原创 2018-11-08 17:19:47 · 1975 阅读 · 1 评论