开发技巧
poson
搞过图像处理感觉刚入门做搜索引擎只玩过单机版广告技术做了QueryRewrite目前做推荐算法感觉推荐算法和关键词推荐本质上是一样的爱数学爱计算机爱生活
展开
-
pandas read_csv 读取数据中包含双引号
如果数据中的某个字段有引号,引号里面有逗号(逗号也是字段分隔符),如:1,"a,b,c"需要用下面的方法读取:import pandas as pddf=pd.read_csv("complext.csv",skipinitialspace=True,escapechar='\\',quotechar='"')df.to_csv("new.csv",sep="\x01")...原创 2020-08-08 08:01:57 · 4731 阅读 · 0 评论 -
读取txt中的字段key,然后编号再输出
import pandas as pdsep="|"def read_key(dict_key, arr_fileld, idx=[]): if len(idx) == 0: return for index in idx: keys = arr_fileld[index].split(",") for key in keys: if key not in dict_key: di.原创 2020-06-21 14:52:50 · 387 阅读 · 0 评论 -
如何在linux命令行(终端)执行ipynb 文件。可以不依赖jupyter。
安装 runipypip install runipy终端执行ipynbrunipy <YourNotebookName>.ipynb在终端命令行执行shell脚本,(也可以在crontab 中执行):(base) [recommend@app-0-5-B-006 script]$ cat run1.sh#!/bin/bashcd /hom...原创 2020-01-11 10:17:13 · 22820 阅读 · 4 评论 -
java 关键字
@Override 重载@Nullable 参数可为null原创 2013-06-28 10:47:21 · 1320 阅读 · 0 评论 -
如何设置 “任务依赖+时间限制”的job启动条件
调度系统一般提供了两种job启动条件: (1)按照crontab方法设置时间。可以一天、一周指定时间启动。 (2)按照任务依赖,任务B可以依赖A1、A2…An。当任务A1,A2,…,An执行成功之后,B才开始启动。 现在我们遇到一个新问题,任务B即要依赖A1,A2,又需要再上午10点以后运行。为什么要上午10点以后运行?因为B是非重要任务原创 2013-01-04 13:14:32 · 3363 阅读 · 3 评论 -
多个排序数组求交集
多个排序数组求交集原创 2011-04-26 08:06:00 · 4284 阅读 · 0 评论 -
几行代码搞定python 设计模式
原创 2009-06-07 22:40:00 · 812 阅读 · 0 评论 -
python 读取xml的方法
#引入lib库 from xml.dom import minidom #导入xml文件 dom = minidom.parse(fileXml) #遍历子节点 for node in dom.childNodes: for model in node.childNodes: #得到子节点,保证节点的类型原创 2008-12-17 17:39:00 · 1687 阅读 · 0 评论 -
排序算法中比较函数的运用
假如我们有一个表格如下,1,52,33,7需要根据第二例排序。我们应该怎么办呢?这里使用python作为范例,其他语言提供类似的泛型编程方法。 对这个数据排序可以写出如下代码:def customCmp(a, b): return cmp(a[1],b[1] )mylist=[]a=[1,5]b=[2,3]c=[3,原创 2008-12-17 11:40:00 · 905 阅读 · 0 评论 -
Hadoop调试信息的输出办法
Hadoop调试是比较麻烦的事情,考虑到只能通过reduce输出数据,我们可以把调试信息输出到reduce中,然后固定到某个文件中。 我们可以把所有的调试数据都是用key=“Debug”,调试信息作为value=“debugInfo”。(1)在map中直接使用output.collect(new Text("debug"), new Text("调试信息"));(2)原创 2008-12-17 11:37:00 · 4410 阅读 · 0 评论 -
一个简单的makefile 文件模板
OBJ =objSRC =src#SRCS := $(wildcard $(SRC)/*.cpp)SRCS = $(SRC)/demo.cpp $(SRC)/mycla.cppOBJS := $(patsubst $(SRC)/%.cpp,$(OBJ)/%.o,$(SRCS)) CXXFLAGS = -O2 -g -Wall -fme原创 2009-02-03 14:14:00 · 688 阅读 · 0 评论 -
python 的配置文件模块
写入配置文件:import ConfigParser, os #引用的模块:config = ConfigParser.RawConfigParser()# When adding sections or items, add them in the reverse order of# how you want them to be displayed in the act原创 2009-01-14 16:41:00 · 1017 阅读 · 0 评论 -
Hadoop分布式应用框架
(1)HDFS实现google的文件系统(2)并实现google的mapreduce系统。作为Hadoop程序员,他要做的事情就是: 1、定义Mapper,处理输入的Key-Value对,输出中间结果。 2、定义Reducer,可选,对中间结果进行规约,输出最终结果。 3、定义InputFormat 和OutputFormat,可选,InputFormat将每行输入文件原创 2008-10-05 16:44:00 · 810 阅读 · 0 评论 -
Oracle Spatial详解
Oracle Spatial详解 http://www.cnblogs.com/frogbag/archive/2007/10/17/926870.htmlStep1. 创建一张表,其中shape用来存放空间数据 CREATE TABLE mylake ( feature_id NUMBER PRIMARY KEY, name VARCHAR2(32), sha转载 2008-06-24 11:06:00 · 4995 阅读 · 0 评论 -
free UML tool for mac os (免费UML工具)
很久以前用过starUML的windows版本,没有想到还有mac 版本。苦逼的找了半天其他开源软件。ArgoUML下载下来不能安装。。。BoUML 没有dmg文件。http://staruml.io/download原创 2014-12-21 23:18:06 · 10458 阅读 · 3 评论 -
idea intellij 导出 jar 包
直接使用project structure... -> artifact -> jar -> from module with dependence ... 这样设置之后可以生成jar,但是运行java -jar xxx.jar 的时候会报错:找不到主清单属性。换了一种方法,用mvn打包。首先在pom文件中需要添加一部分:原创 2015-02-26 09:43:06 · 4514 阅读 · 0 评论 -
mac 下brew的源更换为阿里云
# 替换brew.git:cd "$(brew --repo)"git remote set-url origin https://mirrors.aliyun.com/homebrew/brew.git# 替换homebrew-core.git:cd "$(brew --repo)/Library/Taps/homebrew/homebrew-core"git remote set-...原创 2019-09-03 08:09:39 · 1989 阅读 · 0 评论 -
python 字符串填充、补全、对齐,填充0.
if not isinstance(dTime, datetime): raise ValueError("not isinstance(dTime, datetime)")sYMD = dTime.strftime("%Y-%m-%d")s = '{0:0>2}'.format(dTime.minute)sMinute = "%d:%s:00" % (dTime.hour,...原创 2016-05-08 23:15:50 · 17943 阅读 · 0 评论 -
开发中常用linux命令
1.找出所有shell 里面,找到所有shellfind /opt/task/ | grep -v pyspark2 | grep ".sh$" > a.sh 2.找出含有cluster 字符串的文件过滤其中有submit 和 cluster 字符串的shell文件:import oswith open("a.sh","r") as f: for ...原创 2018-07-09 15:27:05 · 262 阅读 · 0 评论 -
scala 两个list 拼接 ++:
scala> val x = List(1)x: List[Int] = List(1)scala> val y = LinkedList(2)y: scala.collection.mutable.LinkedList[Int] = LinkedList(2)scala> val z = x ++: yz: scala.collection.mutable.Lin...原创 2018-03-01 14:07:59 · 11489 阅读 · 0 评论 -
spark 安装standalone 的坑
spark 对应的scala 版本要注意通过spark-shell 来检查:spark 版本和scala的版本不一致,就没有办法运行了。 花了2个多小时发现的坑。命令如下:$ ./bin/spark-shelllog4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.Muta原创 2017-12-26 23:43:27 · 622 阅读 · 0 评论 -
python3.5 如何在virtural env 下面使用libsvm
python的libsvm设置原创 2017-07-25 21:00:08 · 853 阅读 · 0 评论 -
阿里云数加Max Compute的Java Map Reduce程序读取文本资源及其命令行和IDE运行配置
最近有个业务是想从商品数据中解析出需要的关键词。关键词来自一个词库,词库文件包括产品类目词、菜品词等等。选择用阿里云Max Compute 的Map Reduce(MR)来实现。原创 2017-06-07 17:18:19 · 1322 阅读 · 0 评论 -
安装openCC 需要先安装cmake
https://github.com/BYVoid/OpenCC安装openCC在centOS 操作系统,需要先安装cmake,然后再make。原创 2017-04-04 09:39:23 · 3091 阅读 · 0 评论 -
python setup.py 上传之后下载
setup.py 帮助你纪录安装细节方便你卸载python setup.py install --record log这时所有的安装细节都写到 log 里了想要卸载的时候cat log | xagrs rm -rf就可以干净卸载了原创 2016-03-09 13:01:15 · 1591 阅读 · 0 评论 -
gitstack,不错的windows 版本的git服务器
gitstack 可以管理工程;权限管理:read or write。每一个工程都要添加user,否则不能git push。在客户端需要设置:git config --globalhttp.sslVerify false 忽略SSL证书。原创 2016-03-08 19:42:47 · 2730 阅读 · 0 评论 -
eclipse 不断报错:Computing Git status for repository
Computing Git status for repository删除Egit,升级Egit都没有用处。根据提示,把文件名称中的中文,全部修改为英文,可以解决这个问题。原创 2015-09-07 11:09:20 · 10873 阅读 · 3 评论 -
常见代码问题
1、需要添加注释,特别是在硬编码的地方。 建议“注释行数/代码行数”不能少于10%。简单的说就是“十行一注释”。2、多次用到的代码段,应该抽象为函数。3、一个class的函数应该尽量少。 一个class表示一个对象。对象的成员函数应该具有一定的共性,不能因为方便把什么函数都放在一起,尽量多写几个class,也要保证每个class中的函数功能比较单一。4、一个函原创 2008-06-26 16:17:00 · 699 阅读 · 0 评论 -
在oracle spatial 中添加一个二维的点
INSERT INTO mylake VALUES(13, zhongl, MDSYS.SDO_GEOMETRY( 2001 , --表示一个点 NULL , --空MDSYS.SDO_POINT_TYPE (1,1,NULL),--添加一个点,后面两个熟悉就为空NULL , NULL) );原创 2008-06-24 11:32:00 · 1144 阅读 · 0 评论 -
安装开源C++ IDE工具Code::Blocks 8.02
安装了codeblocks-8.02mingw-setup,这个包括Code::Blocks和一个mingw编译器。注意在IDE中要设置编译器的路径。 MinGW 包含gcc编译器。原创 2008-08-19 19:31:00 · 644 阅读 · 0 评论 -
关于oracle数据库索引的一点介绍
在oracle中数据表中建立适当的索引,对于充分利用数据库,提高数据库的性能有非常重要的作用。应该怎么建立索引呢,在这里抛砖引玉,介绍一些基本方法。对于一些经常查询的字段,并且是用“等于”条件查询的字段,我们应该增加一些索引。例如:(1)通常对于id字段,我们都会增加一个索引(通常也是主键),以便于查找。(2)如果我们经常对商家name作查询,那么也应该对name字段做一个索引原创 2008-07-31 10:33:00 · 586 阅读 · 0 评论 -
使用反射、工厂调用多个dll中的的派生类
使用反射、工厂调用多个dll中的的派生类 假设有一个接口ISend。ISend负责发送数据到不同的客户端。通过ISend可以把数据发送到sockent客户端,也可能是邮件服务器,或者时消息队列,或者时数据库。关键是我们开发的时候不知道有多少个客户端。但是我们的程序必须动态的加载这些客户端然后把所有的消息发送出去。Interface ISend{Send原创 2008-05-10 18:54:00 · 907 阅读 · 0 评论 -
OpenGL 3DS建模显示
1、C3DSModel保存3DS 模型的一个类。2、使用OpenGL显示3DS模型。3、多个3DS模型组成一个需要的物体。4、使用键盘控制模型的运动。5、可以使用3D explorer生成C++的openGL代码。////////////////////////////////////////////////////////////原创 2008-05-09 09:52:00 · 1501 阅读 · 0 评论 -
PDF文件管理系统
1、 每组PDF放在一个目录下面。数据库保存文件名称,保存的路径,相关文字信息(便于检索)。(1)Name,Path,Text,Groupid。(2)GrouPid,Group Name2、 客户端 搜索PDF文件。下载PDF文件并阅读(使用PDF控件)。但是不能带走PDF文件。 只要可以阅读pdf,就是可以截屏的。当然可以得到pdf。除非不能访问外网,不能使用原创 2008-05-09 09:51:00 · 3676 阅读 · 0 评论 -
查找并删除excel的错误.
查找所有具有数据有效性设置的单元格 在“编辑”菜单上,单击“定位” 单击“定位条件” 选中“公式” 选择公式下面的“错误”。 (数字、文本、逻辑值不选)这样就可以选中表中所有的错误。如除零错误“#DIV/0”。5.选中之后点击键盘上的“del”删除键。就可以删除所有的错误。原创 2008-05-09 09:50:00 · 847 阅读 · 0 评论 -
excel相关的代码
string SheetName = "sheet1"; string connectionString = @"Provider=Microsoft.Jet.OLEDB.4.0;Data Source=c:/guanxi.xls" + @";Extended Propertie原创 2008-05-06 12:48:00 · 571 阅读 · 0 评论 -
Oracle 表存储参数pctfree 的设置
由于a是保存用户的日志,经常增加,但是几乎没有更新操作,我们可以考虑调整其中的一些参数。pctfree 可以调整为5。而b表,由于经常要做update操作,所以可以把pctfree调整为30.为每个块预留更多的空间,以便更快的update,而不用作迁移块的操作。原创 2008-07-11 10:27:00 · 2192 阅读 · 0 评论 -
Oracle 空间数据库
基本概念: Oracle 结构体解释 http://www.cnblogs.com/frogbag/archive/2007/10/17/927141.html 简单实例 http://blog.sina.com.cn/s/blog_439d2cef01009c4a.html 利用Oracle Spatial实现位置服务 http://www.gissky.c原创 2008-07-07 13:17:00 · 3538 阅读 · 1 评论 -
sdk、开源工具
<!--google_ad_client = "pub-2947489232296736";/* 728x15, 创建于 08-4-23MSDN */google_ad_slot = "3624277373";google_ad_width = 728;google_ad_height = 15;//--><script type="text/javascript"原创 2008-04-30 15:58:00 · 1211 阅读 · 0 评论 -
使用dataset提高查询速度
把数据库表放在内存中,使用dataset来管理。使用datatable的选择函数dsDataSet1.Tables[0].Select("id)来选取数据。 (1)首先把表装入到内存的DataSet中con = new System.Data.OracleClient.OracleConnection("……"); selectCMD = con.Create原创 2008-04-29 12:44:00 · 880 阅读 · 0 评论