自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

星光不问赶路人

叽叽歪歪的啐啐念

  • 博客(7)
  • 收藏
  • 关注

原创 【使用R语言两行语句将搜狗词库转为csv格式】

使用R语言两行搞定转搜狗词库为CSV格式,txt也可以据此继续转换scel是搜狗词库特有格式,从官网词库下载示例词库:医学部门名称.scelRwordseg包是NLP常用的R包#install.packages("Rwordseg")先下载Rwordseg,Rstudio右界面可install ,最好dependencies#getwd()获取工作路径#setwd("E:/test”)设定工作路径,把词库提前放在这个路径library(Rwordseg)#加载包#importSogouScel

2022-05-06 14:15:09 337

原创 Python向已有Excel工作表sheet写入数据框dataframe

使用Python向已有Excel工作表sheet写入数据框dataframe数据项目场景:通常使用SQL、Python处理完数据后会将需要导出的数据输出成CSV格式,然后必要时使用Excel模板进行格式上的调整(供业务人员查看),或者输入到Excel模板进一步计算,该步骤一般都是人工操作,对Python最后的输出操作优化可以提高一点工作效率。具体示例原有工作簿有两个工作表sheet1,sheet2,sheet1带有格式,需要从Python导出数据往里面写入,sheet2是对sheet1其中两列进行计

2021-02-23 16:40:08 13029 12

原创 挖掘流程回顾&建模实战经验分享

CRISP-DM(CRoss-Industry Standard Process for Data Mining)即为”跨行业数据挖掘过程标准”一、业务理解其任务包括:确定商业目标、评析环境、确定数据挖掘目标、制定项目计划。实际工作:与需求方进行业务沟通,调研,理解并定义问题,撰写会议纪要与脑图,初步确定模型算法需要思考的问题/未来的坑能不能做?做什么(定义问题划定界限)?现有数...

2020-01-08 16:47:06 202

原创 使用SQL对变量进行分箱统计计算WOE与IV值

常用的评分卡模型中需要先对变量进行离散化处理,在大规模数据集中,可以使用数据库本身自带的分位数或者排序函数对变量进行分箱处理后,然后直接计算WOE、IV值。一、SQL分箱操作1、建立箱段表----model为建模数据表,存有用户userid、特征数据var,样本标签flag----quantile为teradata数据库自带分位数函数,trim为去除字符串空格函数,|| 为字符串拼接函数。...

2019-12-31 09:54:14 6355

原创 R语言中文文本处理建立DocumentTermMatrix后乱码问题

最近参加一个中文文本实体识别的比赛,于是重拾R语言文本处理的过程,一年前使用过的代码,突然发现现在重新运行一遍会有这个问题,上网搜索了一遍还是没解决,后来想想归根到底还是编码问题,可能19年对中文编码比较严格一点?过程如下:#0.加载各种包library(rJava);library(Rwordseg);library(NLP);library(tm);library(tmcn);libr...

2019-12-26 15:29:51 1205

原创 数据可视化—百度Echarts基础

前言16年的时候还是个在校学生,基于对数据可视化的兴趣,参加了天池的气象可视化大赛,磕磕碰碰没获奖,与其他合作伙伴最后也不欢而散,最后还是咬咬牙通宵一两个星期终于实现了也交了,这个比赛最后留给我的实质性的可能是简历上面的一行字和这篇文章,但其实还是给我带来了很多精神上的鼓励,相信自己能做到。三年前写的入门基础,Echarts都发展很迅速了,先搬上来,以后有时间再慢慢修改,可能有些链接已失效。...

2019-12-24 15:05:47 1215

原创 Teradata日期时间格式转换问题

Teradata日期时间格式转换问题 Teradata日期和时间型数据入库及处理的总结: 鉴于日期型数据DATE通常是用YYYY-MM-DD的格式进行存储查询,而时间型数注意到数据库是有TIME这个类型数据的,格式是HH:MM:SS,因此可以向着这两个格式进行整理。

2017-03-03 10:41:15 16841

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除