自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 python 中把DataFrame的某一列空值用另一列对应行的取值做补充

把df中a列的空值用b列的值做补充 df['a'][df['a'].isnull()] = dfdf['b'][df['a'].isnull()]

2020-03-20 15:00:10

阅读数 10

评论数 0

原创 pyecarts1.7.1 画带背景的词云图

在python3.6环境下,搭建pyechrts1.7.1的运行环境:方法如下 第一步:进入http://pyecharts.herokuapp.com/网站,打开后点击: 进入下载并解压到本地。 第二步:进入cmd环境后执行 cd pyecharts pip install -r requir...

2020-03-19 09:34:35

阅读数 21

评论数 0

原创 python利用pyecharts画网页版的词云图(1)

step1 下载pyecharts的依赖包 在cmd下执行pip install pyecharts==0.1.9.4 step2 `import pyecharts import jieba import matplotlib.pyplot as plt from pyecharts impor...

2020-03-18 09:14:35

阅读数 43

评论数 0

原创 Python利用 cx_Oracle操作数据报错:UnicodeEncodeError: 'ascii' codec can't encode characters in position 157-1

https://blog.csdn.net/qq_40546896/article/details/80451985

2019-10-31 15:20:10

阅读数 21

评论数 0

原创 Python 读取Oracle数据,中文乱码问题

https://www.cnblogs.com/rainbo/p/10836302.html

2019-10-31 14:46:40

阅读数 28

评论数 0

原创 python 访问oracle过程中报错DPI-1047的解决方法

python 访问oracle过程中报错DPI-1047,去这个网址下载oracle的客户端https://www.oracle.com/database/technologies/instant-client/winx64-64-downloads.html 然后把这3个文件拷贝在Anacon...

2019-10-31 14:35:08

阅读数 89

评论数 0

原创 python3.6.4安装及离线安装cx_Oracle相关软件

下载地址为:https://repo.anaconda.com/archive/ 下载的是 安装好以后,从已经安装好的cx_Oracle的环境里面的安装目录下,搜索cx_Oracle,把这4个文件拷贝出来放到对应的site-package下面。就好了。 ...

2019-10-24 17:53:22

阅读数 33

评论数 0

原创 PL/SQL报错:Initialization error Oracle client not properly installed

按照博客:https://blog.csdn.net/u012161134/article/details/51838914的方法可以解决

2019-10-24 17:47:20

阅读数 17

评论数 0

原创 oracle 日常小技巧1

查询数据库中所有的表: `select * from user_object ;` 查询库里里面所有含有XXX字段的表: select * from dba_tab_columns t where t.column_name = 'XXX'

2019-10-17 15:11:26

阅读数 5

评论数 0

原创 python 网络爬虫小经验总结

使用python进行爬虫过程中,想要进行翻页爬取。但是每一页的网址都一样,让人很头疼,在朋友的帮助下我找到了一种可以翻页的方式, 鼠标右键点击检查元素,然后点进去,可以找到可以翻页的链接。这样就可以根据每一页里面的内容获取相应的链接进行爬取我们需要的内容了。 ...

2019-09-03 17:49:18

阅读数 23

评论数 0

原创 linux 下安装python环境

第一步:下载所需的安装包 下载地址为: 清华大学的镜像:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 官网 :https://repo.anaconda.com/archive/ 这两个地址都可以下载 第二步: 把下载好的包放在指定的...

2019-08-29 10:02:38

阅读数 19

评论数 0

原创 oracle case ... when 的嵌套使用

下面给出一个case … when 函数的双层嵌套使用实例,用于查看逻辑回归预测模型的评估情况: select mark , pre_mark ,count(*) from (select emp_no, label , pre, ...

2019-08-09 15:26:25

阅读数 117

评论数 0

原创 K-prototype算法效率的提升

K-prototype是处理混合属性聚类的典型算法。继承Kmean算法和Kmode算法的思想。并且加入了描述数据簇的原型和混合属性数据之间的相异度计算公式。虽然k-prototype算法对于混合属性的聚类效果很好,但是在样本较大的时候,效率低下。基于效率低下这个问题。我尝试用one-hot编码处理...

2019-08-06 09:07:57

阅读数 95

评论数 0

原创 ctl 往oracle里面导入数据

利用R或者python往数据库大批量的写入数据,效率低下且容易被客户端杀死,在我领导的鼎力帮助下,实现了用ctl往oracle里面写入数据,效率大大提高了。 现在我把具体的操作方法分享一下: 首先创建一个ctl文件: load data characterset utf8 INFILE...

2019-08-01 18:24:37

阅读数 117

评论数 0

原创 linux 系统下执行R语言脚本时后台启动和日志查看

随着数据量的激增, 在linux系统环境下执行数据分析模型时由于运行时间太长,会出现 Connection closed by foreign host, 往往程序运行未结束时出现这样的错误,让人头疼,本文来总结下在linux系统下在后台执行R文件的步骤: step01: 创建R脚本,例如:R...

2019-07-30 14:18:21

阅读数 432

评论数 0

原创 数据分析工作的步骤

随着大数据时代的到来,如何利用历史数据来指导未来,是数据分析师工作的核心任务,作为一名从事2年的数据分析工作的初级数据分析师,我把自己的看法叙述一下,希望路过的同道人士能够给与一定的指导与帮助。 首先,要想做好数据分析工作,得做好业务调研工作,定位待分析事务存在的背景、发展事态。 其次,需要定...

2019-07-14 10:38:09

阅读数 52

评论数 0

原创 在plsql中手动更改表中数据

利用代码修改表中数据效率低下,直接手动修改提升效率。 修改方法,以emp表为例: step1: select * from emp for update; step2: 在表中左上角点击解锁按钮 step3: 修改表中数据; step4:再次点击锁按钮,这次是锁住。 step5:点击...

2019-07-13 20:11:32

阅读数 240

评论数 0

原创 python 实现信息熵、条件熵、信息增益、基尼系数

import pandas as pd import numpy as np import math ## 计算信息熵 def getEntropy(s): # 找到各个不同取值出现的次数 if not isinstance(s, pd.core.series.Seri...

2019-07-09 17:18:23

阅读数 947

评论数 2

原创 python 实现PCA变换

在机器学习中,指标不全面会无法保证模型的准确性,但指标太多又容易造成指标维度灾难。主成分分析的主要思想 1) 进行特征降维变换,不能完全地表示原有的对象,能量总会有损失。 2) 希望找到一种能量最为集中的变换方法使得损失最小 主成分分析就是试图在力保数据信息丢失最小的原则下,对这种多变量的数...

2019-07-09 17:11:21

阅读数 272

评论数 0

原创 python 计算变量的IV值

在机器学习的二分类问题中,IV值(Information Value)主要用来对输入变量进行编码和预测能力评估。特征变量IV值的大小即表示该变量预测能力的强弱,在面对大量变量的情况下,可计算各个变量的IV值,取IV值大于某个固定值的变量参与到模型中去,这样不仅保留了特征携带的信息量。且提高了模型效...

2019-07-09 16:58:16

阅读数 530

评论数 0

原创 成长之路

工作中需要养成的好习惯:1) 每天记下自己已经完成的事情 2) 记录自己未完成的事情 3) 下班之前想想第二天需要做的事情 4) 每周做工作总结和下周工作计划 ...

2019-06-28 14:17:05

阅读数 30

评论数 0

原创 ORACLE 子查询提高代码可读性的方法

在日常工作中,常常遇到多层嵌套子查询,这种结构可读性略差,采用with … as 结构能够极大 增加了sql的易读性,如果构造了多个子查询,结构会更清晰;更重要的是:“一次分析,多次使用”,这也是为什么会提供性能的地方,达到了“少读”的目标。 with a1 as (select...

2019-06-27 15:06:59

阅读数 84

评论数 0

原创 R语言环境的搭建

下载R语言安装包: 网址为:https://cran.r-project.org/ windows 或者linux,根据自己的需求点击选择就OK step01: 下载安装包 以点击Download R for Windows为例: 点进去之后选择install R for first time...

2019-06-26 14:49:19

阅读数 177

评论数 0

原创 SQL性能问题

在我们日常工作中, 为了达到某些运算目标,每个人写的SQL都会不一样, 然而不同的写法在运算性能有很大差异, 在自己日常工作中遇到不少SQL性能的问题,由于自己才疏学浅,虽然达到了运算正确的目标,然而很多时候运算时间太长,给自己带来了不少烦恼,在公司前辈的指导下,采用有些小技巧,达到了提速的目标,...

2019-06-21 18:30:14

阅读数 82

评论数 0

原创 Python3.6.4由 bit32 到bit64过程中遇到的问题及解决方案

这是我自己在安装过程中遇到的问题,一番搜索之后,集各路大神的智慧结晶, 记下所有的问题和对应的解决方法。 由于bit32 的python3.6.4 在安装tensorflow时, 遇到问题,报错内容为: Collecting tensorflow Could not find a ver...

2019-06-21 11:06:18

阅读数 363

评论数 0

原创 R语言从Oracle数据库查询DataFrame与写入DataFrame数据

查询数据: library(DBI) library(rJava) library(RJDBC) library(RODBC) drv <- JDBC(driverClass="oracle.jdbc.driver.OracleDriver", classPath = ...

2019-06-11 10:16:10

阅读数 123

评论数 0

原创 linux 系统下执行R文件

随着数据量的激增, 在linux系统环境下执行数据分析模型显得很重要,本文来总结下在linux系统下执行R文件的步骤: step01: 创建R脚本,例如:Rtest.R step02: 创建shell脚本, 例如 runRtest.sh, 内容为: #!/bin/bash Rscript 路径/...

2019-06-11 10:11:37

阅读数 1285

评论数 0

原创 在R语言中调用存储过程

R语言作为数据分析的工具,是建模分析的利器,然而数据的预处理和指标体系表的创建过程放在oracle数据库存储过程里面更高效, 如何实现指标体系表创建完成后立马开始建模和分析,是数据分析人员关注的重点,就是把存储过程的调用放在R代码里面, 使得存储过程执行结束后立马开始建模分析的无缝对接, 那么如何...

2019-05-28 19:25:53

阅读数 46

评论数 0

原创 Linux 系统环境下运行python文件出现的bug机以及整改方法

在windows环境下写好的python代码, 确定可以在windows下运行, 可是在linux下, 就报错了: bad interpreter: 没有那个文件或者目录, 因此需要在etc/profile 文件中配置python 的安装路径, 且在python 文件里面的第一行加入这样一行内容:...

2019-05-23 16:09:08

阅读数 51

评论数 0

原创 python 往oracle里面写DataFrame(二)

之前写了python 往oracle里面DataFrame, 在自己的笔记本上奏效,但是放在集群上去,就会失效了,报错内容为: sqlalchemy.exc.DatabaseError: (cx_Oracle.DatabaseError) ORA-12505: TNS: 监听程序当前无法识别连接...

2019-05-15 18:25:23

阅读数 395

评论数 0

原创 IDEA 搭建spark环境

step1 安装IDEA, 并破解 step2 安装scala, 并配环境 step3 下载maven,在创建工程的时候,选中maven所在的目录, 以及相应的settings.xml的位置 step4 如果需要连接oracle, 则要加载odbc驱动 step4 所需要的依赖都放在po...

2019-05-13 15:16:54

阅读数 33

评论数 0

原创 ORACLE 存储写存储过程总结

step01 需要创建一个package; 例如: create or replace package package_name is end package_name ; 这一步只是创建一个package。 step02: 为创建好的package创建包体 例如: create ...

2019-04-28 11:14:03

阅读数 27

评论数 0

原创 python 实现K-protopyte中代码的研究心得

最近研究了一位博主用python的代码,让我受益匪浅,然而在研究的过程中我也有了一些自己的想法, 首先说一下Counter()方法 举个例子 Counter({‘abcd’}), 运行结果为: Counter({‘abcd’}:1) Counter(‘abcd’), 运行结果为: Counte...

2019-04-25 17:51:02

阅读数 24

评论数 0

原创 分层抽样后训练模型时的bug修复

根据上一篇博客中的方法对样本进行分层抽样,抽样后反复测试,都觉得没有任问题,但是在训练模型的时候执行: models = LogisticRegression(C = 1000 , tol= 1e-10 , max_iter= 1000) models.fit(data_train_2 , dat...

2019-04-16 18:07:17

阅读数 85

评论数 0

原创 python按照某个字段,对目标按照给定的比例进行抽样

data : 抽样数据库, df_col_partition : 分层变量名, df_col_mark : 目标标识字段, multiply : 非目标用户与目标用户比例 def stratifiedSampling(data,df_col_partition,df_col_mark,mu...

2019-04-16 17:57:32

阅读数 708

评论数 0

原创 PYTHON 从oracle查询数据并且存入DataFrame中

python对数据的分析操作简单易行,且基本的DataFrame类型的数据是数据分析与建模的基础数据类型。那么如何把数据从关系型数据库取出来并直接存到DataFrame中呢,在参考前人的基础上,我对该过程进行了简单的封装,代码如下: import cx_Oracle as oracle...

2019-02-27 12:32:21

阅读数 866

评论数 0

原创 Python 直接把DataFrame写入OACLE数据库

Python 直接把DataFrame写入OACLE数据库 python 把模型跑出来的结果写入csv,txt等文档中,不便于后续的存储和分析,于是乎我想把它直接写入数据库,但是问题来了,百度了很多写法,都是需要把DataFrame的每一行逐条插入,虽然逻辑清晰明了,但是也有很多弊端,需要提前在...

2019-02-27 09:53:37

阅读数 1273

评论数 1

提示
确定要删除当前文章?
取消 删除