- 博客(5)
- 收藏
- 关注
原创 python匹配文本中全角符号的两种方法
在对文本进行处理的时候经常会遇见要对括号和标点进行匹配 常见的英文(半角)符号如( ) 直接用正则匹配即可 但是遇见全角字符(中文括号、标点),直接用正则匹配会存在问题: 因为编码一般为utf8,若直接匹配,中文括号的3字节编码会和一些中文的字节编码重复,产生意想不到的结果 若用decode转为unicode编码,则可避免产生错误结果,但也无法直接用正则匹配到 经过试验,发现最佳解决方法
2016-03-31 15:04:02 12490 2
原创 python tips
for line in fin: lines = line.strip().split('\t') 先如今直接可以简化写成 for line in fin: lines = line.split() 还有l = [5:15] 那么 ll[0:20] 便等于l[5:15] 会自动作边界检查
2016-03-11 16:14:30 231
原创 ElasticSearch安装指南
1.官网下载es wget https://download.elastic.co/elasticsearch/elasticsearch/elasticsearch-1.6.0.tar.gz 2.解压 tar zxf elasticsearch-1.6.0.tar.gz 3.修改启动配置文件 cd elasticsearch-1.6.0 vim config/elasticsearc
2016-03-11 11:56:45 298
原创 kmeans++算法流程
1 输入n个点 2 随机一个点做seed1 3 计算其余点和seed1的距离,以距离远近为正比计算概率,产生下一个seed 4 重复3,获得k个seed 5 把每个点划分到最近的中心(分簇) 6 计算每个簇的中心,作为新的中心 7 重复 5,6,直到任意中心移动距离小于阈值(或重复M次)
2016-03-09 20:24:48 3117
原创 在数组中交换变量的陷阱
写快排后发现结果不对 有一个数莫名其妙的为0 看了整整一天代码 都没发现问题 后来一点点跟踪 最终发现swap的结果不对, 电光火石间明白了 为了追求逼格,在swap变量的时候我使用了异或 但是以前看到过,用异或交换数组中变量的时候,如果数组下标相同,则相当于一个数连续对自己做了三次或运算,结果会导致这个数变成0 真是好坑啊
2016-03-01 17:08:36 515
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人