花非花雾非雾子非鱼
码龄11年
关注
提问 私信
  • 博客:40,597
    40,597
    总访问量
  • 7
    原创
  • 823,676
    排名
  • 9
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2014-06-07
博客简介:

星光不问赶路人

博客描述:
叽叽歪歪的啐啐念
查看详细资料
个人成就
  • 获得28次点赞
  • 内容获得12次评论
  • 获得160次收藏
  • 代码片获得350次分享
创作历程
  • 1篇
    2022年
  • 1篇
    2021年
  • 1篇
    2020年
  • 3篇
    2019年
  • 1篇
    2017年
成就勋章
TA的专栏
  • 文本处理
    1篇
  • Python
    1篇
  • 数据挖掘
    1篇
  • 数据可视化
    1篇
  • 数据处理
    5篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【使用R语言两行语句将搜狗词库转为csv格式】

使用R语言两行搞定转搜狗词库为CSV格式,txt也可以据此继续转换scel是搜狗词库特有格式,从官网词库下载示例词库:医学部门名称.scelRwordseg包是NLP常用的R包#install.packages("Rwordseg")先下载Rwordseg,Rstudio右界面可install ,最好dependencies#getwd()获取工作路径#setwd("E:/test”)设定工作路径,把词库提前放在这个路径library(Rwordseg)#加载包#importSogouScel
原创
发布博客 2022.05.06 ·
373 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Python向已有Excel工作表sheet写入数据框dataframe

使用Python向已有Excel工作表sheet写入数据框dataframe数据项目场景:通常使用SQL、Python处理完数据后会将需要导出的数据输出成CSV格式,然后必要时使用Excel模板进行格式上的调整(供业务人员查看),或者输入到Excel模板进一步计算,该步骤一般都是人工操作,对Python最后的输出操作优化可以提高一点工作效率。具体示例原有工作簿有两个工作表sheet1,sheet2,sheet1带有格式,需要从Python导出数据往里面写入,sheet2是对sheet1其中两列进行计
原创
发布博客 2021.02.23 ·
13610 阅读 ·
17 点赞 ·
12 评论 ·
92 收藏

挖掘流程回顾&建模实战经验分享

CRISP-DM(CRoss-Industry Standard Process for Data Mining)即为”跨行业数据挖掘过程标准”一、业务理解其任务包括:确定商业目标、评析环境、确定数据挖掘目标、制定项目计划。实际工作:与需求方进行业务沟通,调研,理解并定义问题,撰写会议纪要与脑图,初步确定模型算法需要思考的问题/未来的坑能不能做?做什么(定义问题划定界限)?现有数...
原创
发布博客 2020.01.08 ·
225 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

使用SQL对变量进行分箱统计计算WOE与IV值

常用的评分卡模型中需要先对变量进行离散化处理,在大规模数据集中,可以使用数据库本身自带的分位数或者排序函数对变量进行分箱处理后,然后直接计算WOE、IV值。一、SQL分箱操作1、建立箱段表----model为建模数据表,存有用户userid、特征数据var,样本标签flag----quantile为teradata数据库自带分位数函数,trim为去除字符串空格函数,|| 为字符串拼接函数。...
原创
发布博客 2019.12.31 ·
6547 阅读 ·
5 点赞 ·
0 评论 ·
42 收藏

R语言中文文本处理建立DocumentTermMatrix后乱码问题

最近参加一个中文文本实体识别的比赛,于是重拾R语言文本处理的过程,一年前使用过的代码,突然发现现在重新运行一遍会有这个问题,上网搜索了一遍还是没解决,后来想想归根到底还是编码问题,可能19年对中文编码比较严格一点?过程如下:#0.加载各种包library(rJava);library(Rwordseg);library(NLP);library(tm);library(tmcn);libr...
原创
发布博客 2019.12.26 ·
1239 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

数据可视化—百度Echarts基础

前言16年的时候还是个在校学生,基于对数据可视化的兴趣,参加了天池的气象可视化大赛,磕磕碰碰没获奖,与其他合作伙伴最后也不欢而散,最后还是咬咬牙通宵一两个星期终于实现了也交了,这个比赛最后留给我的实质性的可能是简历上面的一行字和这篇文章,但其实还是给我带来了很多精神上的鼓励,相信自己能做到。三年前写的入门基础,Echarts都发展很迅速了,先搬上来,以后有时间再慢慢修改,可能有些链接已失效。...
原创
发布博客 2019.12.24 ·
1269 阅读 ·
3 点赞 ·
0 评论 ·
3 收藏

Teradata日期时间格式转换问题

Teradata日期时间格式转换问题 Teradata日期和时间型数据入库及处理的总结: 鉴于日期型数据DATE通常是用YYYY-MM-DD的格式进行存储查询,而时间型数注意到数据库是有TIME这个类型数据的,格式是HH:MM:SS,因此可以向着这两个格式进行整理。
原创
发布博客 2017.03.03 ·
16936 阅读 ·
3 点赞 ·
0 评论 ·
17 收藏