工作经验记录
Sinsa_SI
数据玩家 | 风控小匠 | 励志学长 的自媒体。
分享编程、数据、风控、反欺诈、励志等方面经验和知识。
展开
-
【感悟】参加公司首届黑客马拉松有感
关于比赛黑客马拉松概念源自美国,随着智能手机风行,“黑客马拉松”逐渐成为插件开发的主要形式:一群高手云集一堂,几十个小时里开发出一款插件,累了或坐或卧,现场休息,做完当场交作品,是“世界上最酷的开发者狂欢”。黑客马拉松是程序员的“美国偶像”,非常受欢迎。参与黑客马拉松的,除了热衷钻研技术的软件工程师,还有来自风投公司的团队。黑客马拉松一般长达几十个小时,参赛者累了或坐或卧,现场休息。“黑客马拉...原创 2019-10-29 14:15:19 · 1417 阅读 · 0 评论 -
Levenshtein距离及其python实现
概念 Levenshtein距离,又称L氏编辑距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。原子编辑操作包括增、删、改,即插入一个字符,删除一个字符,将一个字符替换成另一个字符。一般来说,Levenshtein距离越小,两个串的相似度越大。Levenshtein 距离已经在DNA分析、拼音纠错、命名实体抽取、实体共指、机器翻译等方面有广泛应用。原创 2017-01-07 16:57:40 · 5396 阅读 · 1 评论 -
2016年终总结
2016年已经匆匆过去了一周了,前段时间由于各种忙碌,没有时间好好总结一下过去的一年,只是在脉脉上简单的总结了几个核心的东西:父母安康,感情稳定,工作顺利。概括为一个字就是:幸。父母安康一年又一年的溜走,父母越加年迈了,父亲今年六旬。对于目前没有成家、没有立业的我,父母安康比什么都重要。感情稳定2016年,遇见了那个合适的人,在合适的时间里。相识、相知、相爱、相伴,就这么一起走过了2016。在此非原创 2017-01-07 17:57:12 · 526 阅读 · 0 评论 -
Excel 突显光标所在行列
Excel 突显光标所在行列步骤:按下 alt + F11,跳出如下窗口。 双击需要的工作簿,跳出如下窗口。 输入vba代码Private Sub Worksheet_SelectionChange(ByVal Target As Range) With Target .Parent.Cells.Interior.ColorIndex = xlNone .原创 2017-03-21 13:53:25 · 20089 阅读 · 1 评论 -
[深坑]关于groovy正则表达式中的限位符 `^` 和 `$`
问题提出最近在工作中需要自己写正则表达式,而且是用 groovy,本以为 groovy 是沿用了 java.util.regex 包,只要 java 中运行没问题就可以,结果问题就出现了。 java 中程序如下:import java.util.regex.Matcher;import java.util.regex.Pattern;/** * Created by syp on 17/4/2原创 2017-04-27 17:03:33 · 4226 阅读 · 1 评论 -
CParserError: Error tokenizing data. C error: Buffer overflow caught - possible malformed input file
CParserError: Error tokenizing data. C error: Buffer overflow caught - possible malformed input file原创 2017-06-06 19:52:30 · 7029 阅读 · 0 评论 -
pandas dataFrame to_excel 报错[ UnicodeDecodeError: 'ascii' codec can't decode byte 0xe7 in position 7
pandas dataFrame to_excel 报错 [ UnicodeDecodeError: 'ascii' codec can't decode byte 0xe7 in position 7: ordinal not in range(128) ] 解决方案原创 2017-11-17 14:26:00 · 8079 阅读 · 0 评论 -
Chrome 浏览器扩展程序推荐 Top 10
1. Evernote Web Clipper一键保存网页到印象笔记,即时同步到你的手机和电脑,不用复制粘贴编辑再整理。看见什么,「剪」什么。可选择保存整个页面、网页正文或指定部分2. OneTab一键合并所有标签,节省高达95%的内存,并减轻标签页混乱现象。3. FireShot一键捕捉网页截图,编辑并将它们保存为PDF,JPEG,GIF,PNG或BMP;上传,打印,在 Ph...原创 2018-09-29 17:47:10 · 2329 阅读 · 0 评论 -
[解决办法] jupyter command not found
原文:https://blog.csdn.net/songyu0120/article/details/78245092在 EI captain 版本以及以上系统的 Mac 上使用 pip 安装 python 相关的包的时候, 由于 sip 机制 (System Integrity Protection) 的不允许命令行写入内容到系统目录, 因此一个比较”优雅”的解决方案就是针对当前用户安装包...转载 2018-09-29 17:50:01 · 34065 阅读 · 14 评论 -
pandas dataframe 中的 explode 函数
在使用 pandas 进行数据分析的过程中,我们常常会遇到将一行数据展开成多行的需求,多么希望能有一个类似于 hive sql 中的 explode 函数。这个函数如下:Code# !/usr/bin/env python# -*- coding:utf-8 -*-# create on 18/4/13import pandas as pddef dataframe_explode...原创 2018-12-26 12:56:28 · 6750 阅读 · 3 评论 -
hive的UDF 函数(User-Defined-Function)
UDF函数可以直接应用于select语句,对查询结构做格式化处理后,再输出内容。原创 2016-05-30 20:30:28 · 4397 阅读 · 2 评论 -
手机归属地及卡类型信息接口(python版)
解决问题:通过手机号码,获取手机号归属地及其卡类型.原创 2016-04-21 16:37:04 · 1361 阅读 · 1 评论 -
[解决办法]Python中使用json.loads解码字符串时出错:ValueError: Expecting property name: line 1 column 2 (char 1)
问题描述今天在解析字符串中,使用json.loads解码字符串,脚本如下:import jsonstring = "{u'lat': 61.190495, u'lng': -149.86884}"dic = json.loads(string)运行后报错信息如下:Traceback (most recent call last): File "<stdin&a原创 2016-04-19 13:03:38 · 48904 阅读 · 5 评论 -
搜索引擎常用技巧
前言 Google预计下个月就要回归中国了,虽然其搜索引擎产品还未确定什么时候重回大陆,但应该也是时间问题罢了。因此,今天整理一些关于搜索引擎常用的高级搜索技巧,以迎接Google大神的回归。常用符号加号和减号分别表示逻辑中的“与”和“非”,例如A-B表示搜索结果中包含关键词A但不包含关键词B的网页。大写的OR表示逻辑“或”,例如A OR B表示搜索结果中包含A或者B。AND表示逻辑“与”原创 2016-01-17 22:51:55 · 930 阅读 · 1 评论 -
反反爬虫的招数
前言 想了解反反爬虫,首先的知道“反爬虫“,然后对症下药。什么是反爬虫?忠告: There is no magic solution to avoid automatic crawling. Everyting a human can do, a robot can do it too. There are only solutions to make the job harder, so原创 2015-12-31 15:25:57 · 4627 阅读 · 1 评论 -
ElasticSearch使用简介
一、ElasticSearch概要 ElasticSearch is a search server based on Lucene. It provides a distributed, multitenant-capable full-text search engine with a RESTful web interface and schema-free JSON documents.原创 2016-02-14 18:14:14 · 2399 阅读 · 1 评论 -
SELECT INTO…OUTFILE语句和LOAD DATA …INFILE语句使用说明
SELECT INTO…OUTFILE语句把表数据导出到一个文本文件中,并用LOAD DATA …INFILE语句恢复数据。但是这种方法只能导出或导入数据的内容,不包括表的结构,如果表的结构文件损坏,则必须先恢复原来的表的结构。一、SELECT INTO…OUTFILE语法:select * from Table into outfile '/路径/文件名' fields termina原创 2016-02-18 09:35:21 · 1202 阅读 · 1 评论 -
python安装包方法失效或缺失问题
问题提出 最近遇到两个python安装包文件缺失的问题,一是MySQL包提示缺失image,另一个是pymongo提示数据库方法缺失问题。原创 2016-03-31 17:41:33 · 3269 阅读 · 1 评论 -
IP地址地理位置接口(python版)
解决问题:批量获取IP地址的地理位置。原创 2016-04-01 18:07:32 · 2473 阅读 · 1 评论 -
Mac上安装和卸载Mysql
安装过程下载安装软件包 下载网址http://www.mysql.com/downloads/mysql/ 下载完成后安装软件包,一直点击继续 安装完成后提示root用户的初始密码,如下图 别名设置 在终端输入命令alias mysql=/usr/local/mysql/bin/mysql, 回车 在终端输入命令alias mysqladmin=/usr/local...原创 2016-03-10 18:16:47 · 1642 阅读 · 1 评论 -
Linux报bus error(总线错误)解决办法
最近工作中遇到在Linux服务器上运行python程序时,能够正常import其自带的包,如re、sys等,但无法import外在安装的包,如MySQL、pymongo、elasticsearch等,只要执行这种import操作,python就会自动退出,并报bus error错误,即总线错误。另外,安装在该服务器上的mongodb也不能够访问,报connect failed 错误。原创 2016-04-08 22:29:16 · 69082 阅读 · 8 评论