自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 DataWhale--MySQL任务三

导入CSV文件:load data local infile '文件存放绝对路径.csv'into table table_namefields terminated by ','ignore 1 lines;项目七 各部门工资最高的员工创建 Employee 表,包含所有员工信息,每个员工有其对应的 Id, salary 和 department Id。±—±------±---...

2019-04-06 13:53:25 170

原创 DataWhale--MySQL任务二

项目三创建如下所示的courses 表 ,有: student (学生) 和 class (课程)。例如,表:±--------±-----------+| student | class |±--------±-----------+| A | Math || B | English || C | Math ...

2019-04-03 16:41:01 247

原创 DataWhale--MySQL任务一

1、基于window10的MySQL5.7版安装教程2、Navicat连接MySQL3、数据库基础知识扫盲《MySQL必知必会》笔记 – 数据查询语言DQL《MySQL必知必会》笔记 – 数据操纵语言DML视图:参考博客存储过程:参考博客4、SQL编程格式的优化建议SQL Style Guide[有空翻译一下]项目一:查找重复的电子邮箱(难度:简单)创建 email 表,并...

2019-04-01 18:37:30 182

原创 机器学习的一些概念以及线性回归算法整理

监督学习与无监督学习根据训练数据是否拥有标记信息,学习任务可大致分为两大类:“监督学习”和“无监督学习”,分类和回归是前者的代表,聚类是后者的代表。–《机器学习(西瓜书)》关于监督学习,李航《统计学习方法》是这样描述的:从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则,从假设空间中选取一个最优...

2019-03-01 16:23:12 238

原创 正则表达式

这是收藏有关正则表达式的帖子菜鸟教程

2018-12-05 17:30:23 148

原创 Google Analytics

最近接触到GA,分享一下网站的结构分布:

2018-11-12 16:39:22 118

原创 VLOOKUP函数匹配不出数据

    今天逛ExcelHome论坛的时候,发现一个关于vlookup函数匹配不出数据的帖子。            提问者想通过订单号 匹配收入 sheet里的收入以确认订单金额是否入账,结果发现并不能匹配出结果。    笔者看见后有以下想法:订单sheet B2的订单编号在收入sheet A列里是否存在,验证后确认是存在的; 两个sheet里的订单号列的格式是否一致(比如...

2018-10-26 16:37:06 7507 1

原创 EXCEL杂记

这篇博客记录在Excel相关的网站上见到的觉得不错的技巧:1、Ctrl+E快速填充示例网站:http://www.wordlm.com/Excel/jqdq/6564.html2、index函数使用示例网站:http://www.360doc.com/content/18/0222/11/30583536_731406152.shtml    一个灵活使用index()函数的例...

2018-09-26 17:47:24 154

原创 EXCEL图表

这篇博客主要记录我个人觉得比较妙的Excel组合1、温度计表图下图为数据源格式:选中三列数据,插入簇状柱形图 在图中选中“实际”列,将系列重叠的值设置为100%,并将柔化边缘的预设值设置为“柔化边缘变体”,并调整其大小,样图为5磅   2、漏斗图下图为源数据:计算占位数据:(第一环节人数-当前环节人数)/2 选中转化流程、人数、占位数据三列,然后插入堆...

2018-09-18 18:05:51 297

转载 互联网广告行业知识

入职互联网广告行业已经两月有余了,结合自己的工作经历和网上的一些科普做一下总结。一、定义《当代广告学》一书中对广告的定义是:广告是由已确定的出资人通过各种媒介进行的有关产品(商品、服务和观点)的,通常是有偿的、有组织的、综合的、劝服性的非人员的信息传播活动。对于互联网广告,《计算广告》一书中总结:一切付费的信息、产品或服务的传播渠道,都是互联网广告。网络上总结出一张自广告而下的基本关系图,...

2018-09-10 14:55:43 4237

原创 利用R制作词云图

      制作词云图本不是难事,利用R或者tableau可以轻松制作出花式词云图,但是词源的获取就不是那么容易了,今天我们就利用R语言中的jiebaR包来对北大校长林建华在北大120周年校庆的致辞做分词,并制作词云图。      致辞内容保存在‘beida120.txt'中,分词以及绘制词云图代码如下:> library(jiebaRD)> library(jiebaR)>...

2018-05-30 14:52:40 8428 2

原创 利用R进行脏数据清洗

      在进行正式的数据分析之前,必须要保证数据的质量,故而我们要处理缺失值、异常值这些脏数据。本篇博客参照了如何使用R语言解决可恶的脏数据一文,进行了模拟脏数据清洗。 一、缺失值      缺失值的处理要依据数据的类型和其内容进行相应处理,常用的方法有行删除、众数替代、均值替代以及多重插补法等等。       以下举个例子:#生成1000条无缺失值数据> set.seed(1234)...

2018-05-29 21:40:26 5557

原创 MySQL杂记

MySQL ORDER BY 排序 IF 及 IN 字符串连接函数concat() MySQL练习题:练习题一       练习题二 MySQL中子查询IN,EXISTS,ANY,ALL,SOME,UNION介绍 十步完全理解 SQL...

2018-05-20 13:28:22 228

原创 基于rvest包爬取BOSS直聘-上海里有关“数据分析”的职位信息

      目前一心想入门数据分析岗位的我,很好奇目前数据分析岗位的现状,故而准备爬取Boss直聘里上海目前数据分析岗位的情况。      上源代码:library(xml2)library(rvest)library(stringr)library(dplyr)i <- 1:10job_inf <- data.frame()for (i in 1:10){ webpa...

2018-05-16 10:26:18 916 9

原创 R言rvest包爬取南京二手房信息

      R语言的理论学习也已经有一段时间了,数据分析的基础就是要获取数据,在如今的互联网时代,获取网络数据成为了数据分析师必不可少的随身技能,本篇就模仿R语言爬虫利器:rvest包+SelectorGadget抓取链家杭州二手房数据用rvest包爬取链家南京二手房的信息。      先上此次爬虫的源代码:library(xml2)library(rvest)library(stringr)...

2018-05-15 11:16:09 1016

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除