Python
文章平均质量分 88
Sinsa_SI
数据玩家 | 风控小匠 | 励志学长 的自媒体。
分享编程、数据、风控、反欺诈、励志等方面经验和知识。
展开
-
【解决方案】pyspark 绘图报错:_tkinter.TclError: no display name and no $DISPLAY environment variable
问题描述matplotlib画图失败(pyspark、pyspark3),报错如下:no display name and no $DISPLAY environment variableTraceback (most recent call last): File "<stdin>", line 21, in plot_with_labels File "/usr/in...原创 2019-10-31 19:11:18 · 2344 阅读 · 1 评论 -
XGBoost模型文件转化为PMML
运用java包和指令行讲XGBoost模型转化为PMML通用模型文件。前期准备下载jpmml-xgboost, https://github.com/jpmml/jpmml-xgboost/archive/master.zip ;安装java1.7或以上版本;安装 Apache Maven。配置环境在终端进入项目的根目录,执行: mvn clean翻译 2016-08-13 22:54:57 · 19455 阅读 · 1 评论 -
Levenshtein距离及其python实现
概念 Levenshtein距离,又称L氏编辑距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。原子编辑操作包括增、删、改,即插入一个字符,删除一个字符,将一个字符替换成另一个字符。一般来说,Levenshtein距离越小,两个串的相似度越大。Levenshtein 距离已经在DNA分析、拼音纠错、命名实体抽取、实体共指、机器翻译等方面有广泛应用。原创 2017-01-07 16:57:40 · 5396 阅读 · 1 评论 -
CParserError: Error tokenizing data. C error: Buffer overflow caught - possible malformed input file
CParserError: Error tokenizing data. C error: Buffer overflow caught - possible malformed input file原创 2017-06-06 19:52:30 · 7029 阅读 · 0 评论 -
n-gram python实现(基于sklearn)
# n-gramfrom sklearn.feature_extraction.text import CountVectorizerimport pandas as pdimport jiebadata = ["他用报话机向上级呼喊:“为了祖国,为了胜利,向我开炮!向我开炮!", "记者:你怎么会说出那番话?", "韦昌进:我只是觉得,对准我自己打,才有可能原创 2017-08-07 18:49:44 · 22092 阅读 · 9 评论 -
pandas dataFrame to_excel 报错[ UnicodeDecodeError: 'ascii' codec can't decode byte 0xe7 in position 7
pandas dataFrame to_excel 报错 [ UnicodeDecodeError: 'ascii' codec can't decode byte 0xe7 in position 7: ordinal not in range(128) ] 解决方案原创 2017-11-17 14:26:00 · 8079 阅读 · 0 评论 -
[汉字编码报错] UnicodeEncodeError- 'ascii' codec can't encode characters in position 0-1- ordinal not in r
UnicodeEncodeError- 'ascii' codec can't encode characters in position 0-1- ordinal not in range(128)原创 2017-11-29 20:51:21 · 3963 阅读 · 1 评论 -
python 操作 postgreSQL 数据库 Demo ( 基于PyGreSQL 包)
python 操作 postgreSQL 数据库 Demo ( 基于PyGreSQL 包)原创 2017-12-10 14:54:14 · 1793 阅读 · 0 评论 -
Mac 安装 xgboost
1. 下载安装文件git clone --recursive https://github.com/dmlc/xgboost2. 执行 build.shcd xgboostbash build.sh3. 执行 setup.pycd python-package/sudo python setup.py install4. 测试...原创 2018-08-19 20:22:34 · 4130 阅读 · 0 评论 -
[解决办法] Invalid PythonUDF <lambda>(), requires attributes from more than one child.
[解决办法] Invalid PythonUDF (), requires attributes from more than one child.报题中的错误,解决办法:在过滤过程前 加 df.cache() (这里的 df 为过滤的 DataFrame)The sequence of steps that causes this are:join two dataframes A a...原创 2018-10-17 19:51:47 · 1908 阅读 · 0 评论 -
pandas dataframe 中的 explode 函数
在使用 pandas 进行数据分析的过程中,我们常常会遇到将一行数据展开成多行的需求,多么希望能有一个类似于 hive sql 中的 explode 函数。这个函数如下:Code# !/usr/bin/env python# -*- coding:utf-8 -*-# create on 18/4/13import pandas as pddef dataframe_explode...原创 2018-12-26 12:56:28 · 6749 阅读 · 3 评论 -
Python2 和 Python3 的区别及兼容技巧
转自https://www.pythontab.com/html/2018/pythonhexinbiancheng_1026/1369.html前言最近 Python 之父 Guido van Rossum(龟爷)终于在 Python 官方邮件组落实了 Python 2.7 的终焉之日(EOL)。说的是 Python 2.7 的 EOL 日期最终确定为 2020 年 1 月 1 日...转载 2019-05-28 17:24:17 · 1746 阅读 · 0 评论 -
手机归属地及卡类型信息接口(python版)
解决问题:通过手机号码,获取手机号归属地及其卡类型.原创 2016-04-21 16:37:04 · 1361 阅读 · 1 评论 -
[解决办法]Python中使用json.loads解码字符串时出错:ValueError: Expecting property name: line 1 column 2 (char 1)
问题描述今天在解析字符串中,使用json.loads解码字符串,脚本如下:import jsonstring = &quot;{u'lat': 61.190495, u'lng': -149.86884}&quot;dic = json.loads(string)运行后报错信息如下:Traceback (most recent call last): File &quot;&amp;lt;stdin&a原创 2016-04-19 13:03:38 · 48898 阅读 · 5 评论 -
Python中if-else语句的多种写法
Python中if-else语句的多种写法原创 2016-04-27 20:05:34 · 1954 阅读 · 1 评论 -
利用orange进行关联规则挖掘
转自:http://www.fuchaoqun.com/2008/08/data-mining-with-python-orange-association_rule/ 最近,趁着项目的间隙,折腾了一阵数据挖掘,在同事的帮助下,对新浪音乐用户的听歌记录进行了一个简易挖掘,希望能根据用户以往的听歌记录,推荐出用户可能感兴趣的其他歌曲。Orange :一个模块化的C++数据挖掘包,提供...转载 2015-01-09 13:48:07 · 5360 阅读 · 0 评论 -
python操作Excel读写--使用xlrd
一、安装xlrd模块 到python官网下载http://pypi.python.org/pypi/xlrd模块安装,前提是已经安装了python 环境。二、使用介绍 1、导入模块 import xlrd 2、打开Excel文件读取数据 data = xlrd.open_workbook('excelF转载 2015-01-20 14:11:07 · 641 阅读 · 0 评论 -
常用正则表达式
正则表达式用于字符串处理、表单验证等场合,实用高效。现将一些常用的表达式收集于此,以备不时之需。匹配中文字符的正则表达式: [\u4e00-\u9fa5]评注:匹配中文还真是个头疼的事,有了这个表达式就好办了匹配双字节字符(包括汉字在内):[^\x00-\xff]评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)匹配空白行的正则表达式:\n\s*\r评注...转载 2015-02-10 17:57:02 · 409 阅读 · 0 评论 -
windows 下python包管理工具pip的安装与使用
Python 作为一门高级语言,应用逐渐增多,其中前人开发了很多实用的程序包,使我们在利用python工作的时候更加轻松便捷。但是包太多了,下载安装很是费时费力,于是有人开发了pip软件包管理工具,可以用它来方便的安装和卸载python包。闲话不表, 一、详细安装步骤 (...转载 2015-04-16 21:26:56 · 923 阅读 · 0 评论 -
反反爬虫的招数
前言 想了解反反爬虫,首先的知道“反爬虫“,然后对症下药。什么是反爬虫?忠告: There is no magic solution to avoid automatic crawling. Everyting a human can do, a robot can do it too. There are only solutions to make the job harder, so原创 2015-12-31 15:25:57 · 4627 阅读 · 1 评论 -
ElasticSearch使用简介
一、ElasticSearch概要 ElasticSearch is a search server based on Lucene. It provides a distributed, multitenant-capable full-text search engine with a RESTful web interface and schema-free JSON documents.原创 2016-02-14 18:14:14 · 2398 阅读 · 1 评论 -
python安装包方法失效或缺失问题
问题提出 最近遇到两个python安装包文件缺失的问题,一是MySQL包提示缺失image,另一个是pymongo提示数据库方法缺失问题。原创 2016-03-31 17:41:33 · 3269 阅读 · 1 评论 -
IP地址地理位置接口(python版)
解决问题:批量获取IP地址的地理位置。原创 2016-04-01 18:07:32 · 2472 阅读 · 1 评论 -
Linux报bus error(总线错误)解决办法
最近工作中遇到在Linux服务器上运行python程序时,能够正常import其自带的包,如re、sys等,但无法import外在安装的包,如MySQL、pymongo、elasticsearch等,只要执行这种import操作,python就会自动退出,并报bus error错误,即总线错误。另外,安装在该服务器上的mongodb也不能够访问,报connect failed 错误。原创 2016-04-08 22:29:16 · 68985 阅读 · 8 评论 -
python学习笔记——多线程编程
Python代码代码的执行由python虚拟机(也叫解释器主循环)来控制。Python在设计之初就考虑到要在主循环中,同时只有一个线程在执行,就像单CPU的系统中运行多个进程那样,内存中可以存放多个程序,但任意时候,只有一个程序在CPU中运行。同样,虽然python解释器可以“运行”多个线程,但在任意时刻,只有一个线程在解释器中运行。 对python虚拟机的访问由全局解释器锁(GI...转载 2015-01-07 19:02:05 · 663 阅读 · 1 评论