- 博客(61)
- 资源 (1)
- 收藏
- 关注
原创 风控IV、AUC、KS python计算代码
df_temp:数据集,Y:是否逾期标签,feas_list:需要计算IV的 变量。2、 按月和不同Y 下的 IV计算。
2023-07-26 16:11:22 1170
原创 python dataframe 时间格式处理
1,20230101 这种处理成 2023-01-01 这种。如 :2023-01-01 12:01:01 ,只取年月日。2、时间,截取年月日。
2023-07-07 15:48:20 1259
原创 dataworks取当前时间前一小时时间
set odps.sql.type.system.odps2=true;select DATE_FORMAT(DATEADD(CURRENT_TIMESTAMP(),-1,'hh'),'yyyy-mm-dd hh:mi:ss')select from_unixtime(unix_timestamp(cast(CURRENT_TIMESTAMP() as datetime))-60*60);
2023-06-20 17:08:22 443
原创 excel 保持原有透视表格式只更换底层数据源
1、如上图,选定要更改的透视表,然后点击——》数据——》属性——》定义——》预览(选择需要替换的底表),连接名称可以手动更换为和低表一样的 名字。
2023-05-10 17:44:57 676
原创 excel 自动生成目录
1、按一下图中4步操作,图中第三步要特别注意:是当前exel 要生成目录的sheet名图4,输入:=INDEX(GET.WORKBOOK(1),ROW(A1))&T(NOW())2、在 sheet =‘首页’ 的A列(也可以是任意你想要生成目录的列)=IFERROR(HYPERLINK(目录2&"!A1",MID(目录2,FIND("]",目录2)+1,99)),"")即可生成想要目录...
2022-01-12 15:05:23 2744 3
原创 dataFrame 转成 字典dict
import numpy as npimport pandas as pddf = pd.DataFrame(data=np.arange(20).reshape(10,2), columns=['a', 'b',])df.to_dict() 结果默认 index 是 key ,其他字段是和 index 对应的 value所以,如果想要生成 a 是key ,b 是vaule 的 dict 则需要指定dateframe 的 index 是a ,代码如下:df.set_in..
2021-11-02 19:12:48 4377
原创 Linux 环境下 jupyter 转html
import subprocessgenerate = subprocess.run( [ "jupyter", "nbconvert", '/home/diana/Documents/demo/model_report.ipynb', "--to=html", "--template=report" ] )---'/home/dian...
2021-10-26 14:31:48 137
原创 window 环境下 jupyter 转html
1、用命令在,命令框输入一下命令,html 后面是要生成html 的ipynb 文件及路径jupyter nbconvert --to html e:\project\code\a01_demo.ipynb2、点击jupter 页面 file->Download as ->HTML但是这种都会带代码出来,没有找到只输出结果,不输出代码的方法...
2021-07-12 14:09:58 4111
转载 python学习之路(一) Python配置环境的导入与导出
导出Python环境安装包 切入项目根目录pip freeze > packages.txt这将会创建一个 packages.txt文件,其中包含了当前环境中所有包及各自的版本的简单列表(即pip list 所列出的包列表)安装导入Python环境包 pip install -r packages.txt -r 指定从哪个文件读取并下载相应的包 -i 指定镜像源从那个网址下载(不写及默认国外镜像网站 默认国外的镜像有可能会导致下载缓慢和出错 最好...
2021-06-24 15:16:23 402
原创 最小二乘法
最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小使用最小二乘法拟和曲线高斯于1823年在误差e1,...en独立同分布的假定下,证明了最小二乘方法的一个最优性质: 在所有无偏的线性估计类中,最小二乘方法是其中方差最小的! 对于数据(,)(1=1,2,3,...m)拟合出函数 h(x),有误差,即残差=h(x) -此时 L2 范数(残差平方和)...
2021-06-23 16:21:30 137
原创 python sql 两时间相减,向下取整到天
import numpy as npimport pandas as pdimport datetime as dt(data['time1'] - data['time2']).dt.days, 两时间相减,时间相减不满一天向下取整select 等价 sql datediff('day',time2,time1)这种只用时间中的日期计算比如 time1 = 2020-10-25T11:43:04,time2 =2020-09-21T14:34:43datedif...
2021-02-23 17:24:46 769
原创 一行代码搞定数据探索性分析(EDA)
一行代码搞定数据探索性分析(EDA)查看名为 data 的 dataframe 里面字段分布情况,并输出为 df_profile.html大家可以准备一个 dataframe 运行一下这个代码看看,其中有data 的字段统计,哥字段分布、缺失值占比、平均值、最大值、最小值等等,下图有其中一个字段的输出结果import pandas as pdimport pandas_profilingpfr = pandas_profiling.ProfileReport(data)pfr....
2021-02-08 17:58:05 555 1
转载 sas 结果导出到excel 打不开解决办法
转载 : 后续做说明 http://saslist.com/blog/category/excelxp/
2020-05-21 15:04:56 1410
原创 sas 批量替换字符字段中的值&批量替换部分字符字段的值
使用数组:批量替换temp数据集中字符字段中的 ‘dd’ 为'xx';并对字符缺失值用'xxxx'填充。1、例子:temp需要替换的数据集data work.temp;input a$9. b$9. c;cards;abcdedda eeffaass 123yy789vad ccddeeww 456yyddmmdd aabbccdd 7tc123456 tcdee...
2020-03-25 18:05:36 5092
原创 SAS字符转时间戳
data test;input stringtime $30. ;cards;2018-12-05 19:46:302019-12-28 07:46:22;run;data test1;set test;format ftime datetime20.;ftime=dhms(mdy(input(substr(stringtime,6,2),8.),input(substr...
2019-11-14 18:41:52 2219
原创 python在使用pip安装包时报读取超时(Read timed out)的解决办法
报错最后一行信息如下:pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org', port=443): Read timed out.解决办法如下:pip --default-timeout=100 install (package)或:p...
2019-09-16 15:53:02 3154
原创 python学习之路(二)python数据处理
import numpy as npimport pandas as pdt = np.arange(1,10,0.1)x = np.sin(t)y = np.cos(t)df = pd.DataFrame({'time':t,'x':x,'y':y})df.timedf['time']data = df[['time','y']]data.head()data.tai...
2019-07-26 15:43:07 137
原创 python学习之路(二) python小贴士
import ospython获取当前目录:os.path.abspath(os.curdir)python更改目录:os.chdir()常用函数目录加入到PYTHONPATH中:如常用函数在mydir目录下,通过以下代码实现:import syssys.path.append('mydir')...
2019-07-26 14:36:13 202
原创 python学习之路(二) python向量和数据
numpy是python中高效进行数据操作的一个模块,用 import numpy as np 导入。numpy默认生成一个向量。以下是常用生成数字的命令。np.zeros #生成元素都是0的对象 np.ones #生成元素都是1的对象 np.random.randn #生成标准整体分布的数字(均值为1,标准差为1) np.arange #生成一些区间数字,3个...
2019-07-25 15:19:45 8947
原创 python学习之路(二)python索引和切片
1、从python的列表、元组、numpy数组中取元素:a[start:end] #取出从start开始直到end-1结束的所有元素。 a[start:] #取出从start开始到末尾的所有元素 a[:end] #取出从开头开始直到end-1结束的所有元素。 a[:] #取出整个数组1.1、还可以用‘step’参数a[start:end:step] #从star...
2019-07-25 11:43:33 226
原创 sas md5加密
sas md5 加密处理步骤1、如果加密字段存在空格会造成加密结果错误,对加密字段进行去空格compress函数: 删除字符串中所有空格 compbl函数: 将连续两个或以上的空格压缩为1个空格2、如果加密字段有中文,需要修改SAS配置文件 更改sas编码为u8由于sas默认编码是gbk2312,所以需要修改sas编码,查看当前编码proc options...
2019-07-23 14:30:27 4281
原创 sas替换字符
列一:用substr替换字段中某字符替换某字段某长度:如替换电话号码后四位为****,替换姓名中间为*;注:中文在sas中占两字节(所以中间一字段应该是替换2位,所以用两个*替换)data temp;input phone $12. name$8.;cards;13345679810 王女士13347899999 周小花13355667788 赵小敏189999...
2019-07-18 17:47:27 5922 3
原创 为什么对索引字段做处理后用索引查询会很慢
今天发现一个新问题,先记录,有空再研究补充。场景,上千万的表数据,索引是id和create_time,其中create_time 是时间戳(2019-06-01 01:04:02)这样格式;我只查询一天的数据用 select id,XXX from table where date(create_time)='2019-06-01';这样把create_time格式变为date再查询特...
2019-06-26 14:05:58 575 1
原创 sas抽样代码
一、抽样代码:场景:按DEVICE_TYPT、TARGET字段分层抽样,且3、7分数据集分别作为test和train。PROC SORT DATA =DATA;BY DEVICE_TYPT TARGET;RUN;PROC SURVEYSELECT DATA=DATA OUT=VAR_DATA METHOD=SRS SAMPARETE=0.7 OUTALL;STRATA DEVICE_...
2019-06-18 15:51:38 1902
原创 sas 连接mysql 配置及代码
一、方法一:通过odbc连接: 1、下载odbc并安装,odbc下载路径:https://dev.mysql.com/downloads/connector/odbc/ 2、odbc配置,如下图:管理工具——>odbc数据源(根据自己电脑是32位还是64位配置)——>系统DSN——>添加——>mysql odbc x.x Unicode Driver(...
2019-06-13 17:47:06 4221
原创 UE运行sas配置
1.在UE中配置SAS运行的工具:UE--高级---用户工具--工具配置在命令行输入"D:\soft\SASHome\SASFoundation\9.4\sas.exe" -config "D:\soft\SASHome\SASFoundation\9.4\nls\zh\sasv9.cfg" -sysin "%f" -log "%p%n.log" -print "%p%n.lst"...
2019-06-12 16:27:44 675
转载 python学习之路(一) notebook Magic关键字
Magic 关键字是可以在单元格中运行的特殊命令,能让用户控制 notebook 本身或执行系统调用(例如更改目录)。例如,在 notebook 中可以使用 %matplotlib 将 matplotlib 设置为以交互方式工作(直接在当前notebook页面打印出绘图结果)。Magic 命令的前面带有一个或两个百分号,分别对应行 Magic 命令和单元格 Magic 命令。行 Magic 命...
2019-02-23 09:29:47 367
原创 python学习之路(一) python的执行方法 及Jupyter Notebook简介、安装和快捷键
一、python的执行方法1. 通过命令行执行(python命令之后直接跟上Python文件的名字):python xx.py2. 在IDE中执行3. 使用Jupyter Notebook二、Jupyter notebook简介Jupyter notebook 是一种 Web 应用,能让用户将说明文本、数学方程、代码和可视化内容全部组合到一个易于共享的文档中。Jupyter...
2019-02-23 09:27:46 1093
原创 python学习之路(一) python环境准备及anaconda虚拟环境
1、安装anaconda安装AnacondaAnacond下载程序链接:https://www.anaconda.com/download/。如果计算机上已经安装了 Python,这不会有任何影响。Anaconda使用自己附带的Python。选择 Python 3.6 版本(python3.6是我写这篇文章时用的版本,你也可以根据具体需要选择其他版本)。如果是 64 位操作系统,则...
2019-01-20 13:06:35 217
原创 hive时间函数
1、时区转换函数,create_time字段减8小时from_unixtime(unix_timestamp(create_time)-28800,'yyyy-MM-dd')。2、两日期相加、减函数date_add(current_date(),8 ) 加8天, date_sub(current_date(),8 ) 减8天,或者date_add(current_date(),-8...
2018-11-27 16:57:50 3519
原创 UE常见快捷键操作
1、 列模式(快捷键:Alt+C或Ctrl+A)当你需要批量修改数据或者造数据的时候,这个功能显示了强大威力。试试打开一个文件,按下Alt+C,Ctrl+A,开始写字,你会发现文件中所有的行都在执行相同的动作,在某列批量增加或修改,特别方便。2、插入当前日期/时间 (快捷键: F7)。3、标签列表 (快捷键: CTRL + F8)。4、列标志如果不希望一行写的太长,一般要小于80...
2018-10-26 13:26:37 10099
原创 HIVE,MYSQL按特殊字符截取前后字符串
以截取括号前后字符串为例:一、HIVE截取括号前的字符串:select substr(a,1,instr(a,'(')-1) 注:此方法如果字符串中没有‘(’则会生成 null 值如 :select substr('abc(123)',1,instr('abc(123)','(')-1) 会生成 abc,但是select substr('abc',1,instr('abc','(')...
2018-07-09 16:19:17 31706
转载 使SAS表在输出HTML中可排序-转载
/* 0 -- Create the sortable HTML template */proc template; define style sortable; parent=styles.htmlblue; style body from body / prehtml=' <script src="https://ajax.goog...
2018-06-15 19:35:47 893
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人