自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (1)
  • 收藏
  • 关注

原创 中文流行歌曲歌词文本挖掘

受刘思喆大佬一篇文章《爱情永远寂寞》的启发,对其中的文本挖掘技术非常感兴趣,遂产生了复制这个分析的想法。最近我一直在阅读各种各样的有趣分析,或者是Kaggle Notebooks,其中若有我比较感兴趣的主题、数据、算法,我都会尝试复现一下。比如《爱情永远寂寞》这篇文章中提到的:拿到22996 首中文歌曲(844 个流行歌手)之后,总觉得在这些非结构化数据背后肯定隐藏了什么,但到底会有什么模式呢?当经历了分词、构建矩阵、去除停止词、矩阵约减,最终通过模式识别,统计数字之后爱情居然是这样的一个真相看上

2021-07-13 01:11:35 833

原创 SQL多表联查训练题

表结构如下:Student(Sid,Sname,Sage,Ssex) 学生表 sid为key Course(Cid,Cname,Tid) 课程表 cid 为key SC(Sid,Cid,score) 成绩表 (sid, cid) 为key Teacher(Tid,Tname) 教师表 tid为key Day 1查询选修了“计算机原理”的学生学号和姓名;查询“周星驰”同学选修了的课程编号和课程名称;查询选修了5门课程的学生学号和姓名;Day 2查询“001”课程比“002”

2021-06-20 19:54:12 849 2

原创 Linux资源查看命令

操作系统信息# 查看内核/操作系统/CPU信息uname -a # 查看操作系统版本lsb_release -a # 查看CPU信息cat /proc/cpuinfo# 查看计算机名hostname # 列出所有PCI设备lspci -tv # 列出所有USB设备lsusb -tv # 列出加载的内核模块lsmod # 查看环境变量env 资源使用# 查看内存使用量和交换区使用

2021-06-11 12:34:41 299 1

原创 Golang代码片段

Golang遍历字符串package mainimport "fmt"func main() { aString := "Kanye West" for k,v := range aString{ fmt.Println(k, string(v)) } for k,v := range aString{ fmt.Printf("%v:%q\n",k, v) }}0 K1 a2 n3 y4 e5 6 W7 e8 s9 t0:'K'1:'a'

2021-05-24 15:12:09 233 1

原创 MySQL和Clickhouse时间日期函数对照表

MySQL和Clickhoue时间日期函数对照表mysql函数clickhouse函数功能curdate()today()返回当前日期curtime()now()返回当前时间now()now()返回当前的日期和时间unix_timestamp(date)toUnixTimestamp()返回日期date 的unix 时间戳from_unixtimeFROM_UNIXTIME()返回unix 时间戳的日期值date(time)toDa

2021-03-20 12:17:00 2214

原创 TiDB资料

TiDB中文简介(墙裂推荐)https://pingcap.com/docs-cnTiDB最佳实践等PPThttps://eyun.baidu.com/s/3huniXE0#sharelink/path=%2F开源项目地址https://github.com/pingcap/tidbTiDB 部署指导https://github.com/pingcap/docs-cn/blob/master/op-guide/binary-deployment.md#%E5%8D%95%E8%8

2021-03-18 15:02:40 285 1

原创 SQL统计逗号分隔字段元素的个数

写SQL的时候会遇到如下的问题,统计如下表中project_id字段中id的个数。company_idproject_id7794882,214880,94881,154882,94871,948791402890,2872,3178,4314,497662173,5101,27488464186,4192,4193109214899,94919,949203055000,4999,5011324514,5024,5262491

2021-03-02 20:03:39 7273 2

翻译 MySQL导入数据

MySQL导入数据mysql > LOAD DATA [LOCAL] INFILE 'filename' INTO TABLE tablename [option]option 可以是以下选项:FIELDS TERMINATED BY ‘string’(字段分隔符,默认为制表符’\t’);FIELDS [OPTIONALLY] ENCLOSED BY ‘char’(字段引用符,如果加OPTIONALLY 选项则只用在char、varchar 和text 等字符型字段上。默认不使用引用符)

2021-02-20 17:40:30 123

原创 SQL窗口函数踩坑笔记

谁也不能否认,编写SQL语句是一个数据分析师的重要(甚至是最重要)的技能之一,而Python/R之类,有时候承担的只是胶水语言的功能(比方说最近有个出Excel日报的工作,Python就很好地替代了大量人工劳动)。SQL是数据分析的生产工具,因为企业级的生产数据几乎都存放在数据库或数据仓库中(企业中一般是在线存储的),而对它们进行操作的几乎都属于SQL的某个分支。但SQL这个东西,初学容易、入门简单、精通困难,实在是事业成功的拦路虎。我这么说的理由有如下几点:各种数据库支持的SQL语句有区别,标准不

2021-01-23 23:31:14 520

原创 DataGrip查询结果分多个标签页展示

DataGrip是JetBrains公司出品的一款优秀数据库管理工具。但它默认查询结果在一个页面上展示,也就是新查询会覆盖掉旧的查询结果。如何让查询结果能够分多个标签页展示呢?我们依次点击File - Settings -General并勾选 Open results in new tab就可以了。设置成功之后每个查询结果就能独立存储在不同的tab中。这样比对不同的查询就可以切换tab而不必重新运行sql了:...

2021-01-21 15:41:12 4839 1

原创 R语言:对说唱歌词的简单文本分析

这一阵公司的事情越来越忙,感觉光是应付工作就要耗费很大的精力,工作之外的越来越没有时间做了。再加上最近一直在搞落户的事情,耗费了很多精力,大概工作之后的状态都是这样吧。12月份因为报表的事情连续加了半个月的班,本来想结束之后好好总结下的,但是后面实在太懒就鸽掉了。况且感觉都是些比较个人的经验也没啥好总结的。前两天把一年前在Kaggle上写的一份代码拿出来改成了data.table版本,而且解决了之前的一个小bug。基本的思路是对歌词进行一系列的分词、词干提取等操作。然后将每个说唱歌手视为一篇文档,求出每个

2021-01-19 21:17:23 549

原创 R语言ggplot2可视化案例

仅用到data.table和ggplot2两个依赖包:library(data.table)library(ggplot2)date0 = seq.Date(from=as.Date('2020-01-01'), to=as.Date('2020-12-31'), by='1 day')date = as.POSIXlt(date0)month = date$mon +1weekdays = date$wdaymday = date$mdaydatx =

2020-11-29 17:23:45 716

原创 R语言绘制动态热力地图

下面的R代码是美国历年大选 支持率热力地图,具体代码实现如下:library(maps)library(animation)library(viridis)library(data.table)setwd('E:/some_code/Rbasic/election_dy_plot')election = fread('./elections.csv')presidenten = fread('president.csv')election[,`:=`(sharedem = dem/(re

2020-11-16 14:21:43 2659 6

原创 MySQL Index 索引提示

SQL 提示(SQL HINT)是优化数据库的一个重要手段,简单来说就是在SQL 语句中加入一些人为的提示来达到优化操作的目的。USE INDEX在查询语句中表名的后面,添加USE INDEX 来提供希望MySQL 去参考的索引列表,就可以让MySQL 不再考虑其他可用的索引。mysql> explain select * from sales2 use index (ind_sales2_id) where id = 3;*************************** 1. row

2020-11-11 18:55:52 171

elections.csv

election数据,美国大选数据。分年份地理信息数据。

2020-11-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除