自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 问答 (1)
  • 收藏
  • 关注

转载 git删除workspace下面的xml

1、在项目还没有git add .之前,在.gitignore 文件中加入 .idea2、如果已经git add .了,再在.gitignore中加入.idea ,就已经没有用了。此时,需要运行命令 git rm --cached -r .idearm '.idea/inspectionProfiles/Project_Default.xml'rm '.idea/misc.xml'...

2018-05-28 09:29:39 1834

原创 本地上传到远程命令,以及spark的submit指令

sc@sc-All-Series:~/PycharmProjects$ scp -r risk-model scdata@192.168.31.10:/home/scdata/app/python/scdata@sc-bd-10:~/app/python/risk-model/cs_clean$ spark-submit --master spark://192.168.31.10:7077 ...

2018-05-24 17:22:17 1255

转载 查看CPU占用率

查看系统cpu占用率 在跑一些程序,例如deep learning的时候,总是希望查看一下cpu、gpu、内存的使用率 1. cpu、内存使用top命令$ tophttp://bluexp29.blog.163.com/blog/static/33858148201071534450856/有一个更直观的监测工具,叫htopsudoapt−getinstallhtopsud...

2018-05-24 17:20:42 994

原创 多进程学习

#!/usr/bin/env python# -*- coding: utf-8 -*-# @createTime : 18-5-22 下午8:23# @author : mmimport multiprocessingimport threadingimport timefrom multiprocessing.dummy import Processdef f0(a...

2018-05-22 21:00:17 188

原创 回调函数

回调函数什么是回调函数? (第一次听说回调函数的同学,请认真看下补课)编程分为两类:系统编程(system programming)和应用编程(application programming)。所谓系统编程,简单来说,就是编写库;而应用编程就是利用写好的各种库来编写具某种功用的程序,也就是应用。系统程序员会给自己写的库留下一些接口,即API(application programming...

2018-05-22 20:09:28 125

原创 决策树的Python实现demo(一天一个小demo!)

#!/usr/bin/env python# -*- coding: utf-8 -*-# @createTime : 18-5-22 下午4:44# @author : nnimport numpy as npimport mathdata=[[0,1,0],[1,0,0],[0,1,0],[1,1,1]]print(type(data))data = np.array...

2018-05-22 19:47:10 652

原创 数据库创建主键约束名称不能跟表名一样,否则报错

数据库导出 需要用\copy,并且需要在本地用psql连接上去,不需要用use命令,不能再本地pg界面运行,注意多行时,分次间隔复制; 数据库创建主键约束名称不能跟表名一样,否则会报relation已经存在,删除表由显示table不存在,如下:CREATE TABLE public.t_add_shixin_predict_features( id VARCHAR(100) N...

2018-05-22 16:10:16 2049

原创 杀死进程

查看进程sc@sc-All-Series:~$ lsof -i:19096COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAMEpython2.7 8783 sc 3u IPv4 844429 0t0 TCP *:19096 (LISTEN)python2.7 8783 sc 7u IPv6 8...

2018-05-22 15:59:47 269

原创 多进程写文件

#方式2class TempMul(object): @staticmethod def run(): pool = ThreadPool(20) return pool.map(Temp_02.run_url, ['1', '2', '3', '4'])if __name__ == '__main__': pool = Thread...

2018-05-21 19:02:00 363

原创 spark通过行业代码找到行业

def string_to_int_01(x): try: return int(x) except: return 'nan'def string_to_int_02(x): try: return int(x) except: return 'NAN' def stastic_02(spark,...

2018-05-21 14:11:30 148

原创 从pg里面导出数据////将数据导出到pg,不要在本地,在黑窗口里面,原因-思考???

sc@sc-All-Series:~$ psql -h 192.168.31.157 -p 5432 Password: psql: FATAL: password authentication failed for user "sc"FATAL: password authentication failed for user "sc&quo

2018-05-21 09:42:48 592

原创 对傅里叶变换的理解

很好的博客:知乎-傅里叶简单图形化解释,易懂,经典,必看, 自己对其中的理解: 参考浏览了一下,傅里叶推导的原理:傅里叶典型的变换-三角函数结合自己的理解初步是这样的:傅里叶变换的基本思想——任何一个信号,在时域上,总可以展开成无限个三角函数(正弦或余弦函数)的和;在频率上来看,由于三角函数可以写成指数形式,e-jwt这种形式,根据同频合并的原理,可以将时域的展开表达式进一步推导化...

2018-05-18 22:26:26 1348

原创 rdd

dfkk2.rdd.map(lambda _ : Row([‘_1’],[‘2’],[‘3’],[‘_4’], [‘_5’],[‘6’],[‘7’],[‘_8’], [‘_9’],[‘10’],the_second_hy_map(([‘_11’]))).repartition(1).toDF().w...

2018-05-16 23:39:39 226

原创 df.withColumn

# df is a DataFramedef lowerCase(string): return string.strip().lower()lowerCaseUDF = udf(lowerCase, StringType())for (columnName, kind) in df.dtypes: if(kind == "string"): df = d...

2018-05-16 21:58:18 5304

原创 python程序多进程运行时间计算/多进程写数据/多进程读数据

import timetime_start=time.time()time_end=time.time()print('time cost',time_end-time_start,'s')单位为秒,也可以换算成其他单位输出 注意写测试的时候,函数名要以test开头,否则运行不了。 多线程中的问题: 1)多线程存数据:def test_save_features_to_db(...

2018-05-15 10:18:01 4411

原创 偏相关分析

偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程,判定指标是相关系数的R值。 p值是针对原假设H0:假设两变量无线性相关而言的。一般假设检验的显著性水平为0.05,你只需要拿p值和0.05进行比较:如果p值小于0.05,就拒绝原假设H0,说明两变量有线性相关的关系,他们无线性相关的可能性小于0.05;如果大于0.05,则一般认为无线性相...

2018-05-15 09:45:53 11542

原创 对多线程的学习

def exe_process(self, company_name, open_from, time_nodes): """ 多进程执行pre订阅的数据 :param company_name: 公司名 :return: """ mul_process_helper = MulProcessH...

2018-05-12 22:08:20 167

转载 转载--python返回函数的理解

最近接触python,看到了python中返回函数的概念,以前只接触过函数返回值,比如python就可以返回int,str,list,dict等等类型数据,这里要说的是python还支持返回函数。首先看看python支持返回函数的基本语法def f(): print 'call f()...' # 定义函数g: def g(): print 'cal...

2018-05-12 17:03:11 341

原创 代码重构

代码重构:重构前:if base_info_dto.result_code == BizConsts.DATA_STATE_SAIC_NONE or base_info_dto.result_code == BizConsts.DATA_STATE_NONE_DX_TIME: return FeatureTimeDealDo(result_code=base_info_...

2018-05-09 14:38:43 137

原创 方法返回类的实例,可以继续调用类下面的其他方法,形如:is_cancel = f_d_do.is_cancel_maybe().get_or_else(False)

enterprise_code = u'9'的时候,会走正常预测,因为它有值not is_cancel def _is_normal_predict(f_d_do, prob_maybe): """ 符合正常预测条件 """ is_cancel = f_d_do.is_cancel_maybe().get_or_else(Fal...

2018-05-09 14:08:45 234

转载 linux下pycharm卡死,终止进程方法

首先,用ps查看进程,方法如下:ps−efps−ef ps -ef kill -s 9 1827其中-s 9 制定了传递给进程的信号是9,即强制、尽快终止进程。各个终止信号及其作用见附录。上面适用于进程少,如果进程多,参考:linux下杀死进程(kill)的N种方法...

2018-05-08 11:15:00 26310

原创 决策树学习——基本原理,详细计算过程,预剪枝,后剪枝的计算方式以及思想,非常全面!!!

【机器学习速成宝典】模型篇06决策树【ID3、C4.5、CART】(Python版)维基百科——维基百科,比较权威,多看看,顺便可以学学英语!! min_samples_split(分类所需最小样本数)与min_samples_leaf(叶节点最小样本数)区别!! max_leaf_nodes:最大叶节点数! 参考知乎:机器学习各种算法怎么调参? 看官方文档:class BaseD...

2018-05-07 21:43:12 2171

原创 padas数据类型,train_test_split划分数据集时,padas数据类型的原因导致报错!!padas判断列类型,强制改变列类型,单独修改1列或者同时对多列进行修改!!!

示例,用在决策树前期数据准备的时候。运用train_test_split函数,如下: df = pd.read_csv(file_path) df_p = df[df['_c1'] == 1].head(389081) df_n = df[df['_c1'] == 2].head(389081) frames = [df_p, df_n] df = pd.c...

2018-05-07 20:57:59 1936

原创 left join达不到想要的效果,得到的不是左表的样本数,原因在这!!!

1)区别:左表 left join 右表 on/where left join 是以左表为主,on是不管条件满不满足,都会保留左表的内容,而where,则是将不满足条件的过滤掉了; 2)左表 left join 右表 on 的时候,左表和右表都必须去重,并且都必须保证on条件后面用到的列不会为null,否则,你left join得到的样本数永远不会是左表样本数,得到一个奇怪的数。特别注意,le...

2018-05-07 20:34:35 5178 2

原创 问题:决策树tree.export_graphviz输出树中文显示为框框,无法正常解析

from sklearn import treefrom sklearn.externals.six import StringIOdot_data = StringIO()tree.export_graphviz(model_clf, out_file=dot_data, # doctest: +SKIP ...

2018-05-07 20:29:30 6798

原创 window配置安装pyspark

window配置安装pyspark,值得信赖的教程:win10下安装pyspark ,按照教程安装并配置好后,在cmd窗口下输入pyspark即可运行;但是,在pycharm下的黑窗口下输入pyspark,会报错:c:\Windows\System32>pyspark Java not found and JAVA_HOME environment variable is not set...

2018-05-05 15:04:13 2399

原创 pyspark.sql module官方文档join模块的学习

首先,在pycharm的命令行窗口进行按教程敲命令熟悉; 要进行导入环境,才能运行命令:import os os.environ['SPARK_HOME'] = "/opt/spark-2.0.1-bin-hadoop2.7"sc = SparkContext.getOrCreate()sqlContext = HiveContext(sc)l = [('Alice', 1),(...

2018-05-04 21:43:32 477

原创 对mock的进一步理解

get_judgedoc_shinfo_time_node_api.side_effect = self.__side_effect_judgedoc_shinfo('2009-12-11') def __side_effect_judgedoc_shinfo(self, verify_open_from): 1) time_map_judgedoc_shinfo = s...

2018-05-03 22:20:51 252

原创 windows下本地连接至postgresql,用于学习

误:首先,win+R打开cmd窗口,切换到postgresql安装路径的bin目录下,(不用这样); 直接打开pgadmin4,点开数据库,一直点到public,再点里面的table,就可以找到表了。插入json字段:INSERT INTO public.customer( title, fname, lname, addressline, town, zipcode, pho...

2018-05-03 12:23:12 3005

原创 2018-5-3-一点小感想

现在自己好像很是有了自己的意志,不再因为没人理我而郁郁寡欢,不再因为一些自己也不清楚为何会突然焦愁而郁结了,或许,真正明白了人生的意义;同样让我感到惊醒的是:身边我“厌恶”的人的那种计划以及目标导向的能力,我很有疑问:他为什么就有那么多目标?一个目标完成之后又有了下一个目标?每天把人人都催那么紧,提前完成目标了还有事干嘛?是怎么把目标分配给不同的人去做的?是怎么做到让每个人都几乎在满负压力下还给他...

2018-05-02 23:01:38 136

原创 python通过api获取值,解析

cmp_info = f_e_t_svc.get_cmp_basic_time_node_api(company_name) # 工商信息 cmp_data = cmp_info.get(cmp_model.DATA, {}) #查找的是api返回字典中是否有data这个键,若有,则返回该键对应的值;如果没有则返回{}; class FeatureExtra...

2018-05-02 17:51:14 2339

原创 python数据库操作/python的dump(实际中用的少),dumps,load,loads的用法

1)mysql简单操作:1、启动数据库:2、显示数据库;3,用户管理;4,表操作 python(pymysql)之mysql简单操作 2) 一、概念理解1、json.dumps()和json.loads()是json格式处理函数(可以这么理解,json是字符串)   (1)json.dumps()函数是将一个Python数据类型列表进行json格式的编码(可以这么理解,json.dum...

2018-05-02 17:15:40 673

原创 python 有关datetime的定义与调用

from datetime import datetimeclass CompanyFeatureHelper(object): def __init__(self): # 数据有效期 self.VALID_DAYS = 30 def is_valid_time_range(self, update_time): """ ...

2018-05-02 16:05:16 1042

原创 python-coding技巧

1)将一个类实例化对象featuresres=FeaturesRes()(含有init,变量形式为带self形式的实例变量),转换成字典:for key, value in features_res.dict.items():2)setattr(features_res, key, None)setattr(object, name, value)参数object -- 对象。 #...

2018-05-02 14:23:19 230

转载 python全局变量,静态变量,实例变量,局部变量

全局变量在模块内、在所有函数外面、在class外面,这就是全局变量静态变量在class内的,但不在class的方法内的,这就是静态变量实例变量在class的方法内的,用self修饰的变量,这就是实例变量局部变量在函数内、在class的方法内(未加self修饰)作用全局变量全局变量供全局共享,全局类和函数均可访问,达到同步作用。同时还可以被外部文件访问。使用...

2018-05-02 13:34:52 1186

原创 windows安装pgsql的操作

按教程安装windows下pgsql安装 windows下命令行运行创建数据库的操作: 1)win+R键打开cmd窗口 2)默认路径切换到E盘;> cd E: (注意,不要写成cd E:) 再切换到E盘下面的文件夹“1”下,> cd 1 查看当前路径下的东西,输入dir,与linux输入ls类似;pgadmin插入数据报错INSE...

2018-05-01 14:46:03 3155

转载 向前兼容和向后兼容

向后兼容:Windows 10要能运行为Windows 3.1开发的程序 向前兼容:Windows 3.1要能运行为Windows 10开发的程序链接:https://www.zhihu.com/question/47239021/answer/368142128 在理解向前兼容和向后兼容前,先要知道这是用在什么结构中的。能用到向后兼容和向前兼容, 那么肯定是存在接口概念的。也就是说存在一...

2018-05-01 09:38:54 809 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除