- 博客(221)
- 资源 (37)
- 收藏
- 关注
原创 机器学习文章汇总
机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。一个更精确的定义:如果计算机程序对于任务 T 的性能度量 P 通过经验 E 得到了提高,则认为此程序对经验 E 进行了学习。为了便于理解,这里我整理了常见机器学习算法的通俗解释。机器学习算法分类机器学习可以分成监督学习与无监督学习:监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预...
2019-10-11 11:08:02 1104
原创 Hexo建站、部署、主题优化
Hexo 是一个快速、简洁且高效的博客框架。Hexo 使用 Markdown(或其他渲染引擎)解析文章,在几秒内,即可利用靓丽的主题生成静态网页。下面记录本人Hexo建站、部署、主题优化的过程。Hexo建站、部署Hexo建站教程GitHub Pages绑定域名Hexo博客部署到VPSHexo NexT主题优化Hexo-NexT(v7.0+)主题配置Hexo加入豆瓣读书页面...
2019-07-23 23:42:48 828 1
转载 MySQL嵌套子查询和相关子查询执行过程的区别
详细版本见个人博客:MySQL嵌套子查询和相关子查询执行过程的区别子查询可以分为 相关子查询 和 嵌套子查询 两类。一、本文用到的测试数据假设Books表如下:类编号图书名出版社价格2c#高级应用圣通出版23.002Jsp开发应用机械出版社45.003高等数学济南出版社25.003疯狂英语清华大学出版社32.00二、...
2019-06-17 16:56:00 3402
原创 MySQL中的GROUP BY获取其他字段方法
详细版本见个人博客:MySQL中的GROUP BY获取其他字段方法创建测试数据CREATE TABLE语句用于创建表,在test数据库下面创建一张名为show_plan的表:create table show_plan(id int primary key auto_increment,name varchar(255),desp int,price int);INSERT ...
2019-06-17 16:54:32 16275 3
转载 MySQL实现Rank高级排名函数
MySQL中没有Rank排名函数,当我们需要查询排名时,只能使用MySQL数据库中的基本查询语句来查询普通排名。尽管如此,可不要小瞧基础而简单的查询语句,我们可以利用其来达到Rank函数一样的高级排名效果。在这里我用一个简单例子来实现排名的查询:首先我们先创建一个我们需要进行高级排名查询的players表,CREATE TABLE `players` ( `pid` int(2) NOT...
2019-06-17 16:52:32 608
转载 MySQL声明变量以及赋值
MySQL 的变量分为四种: 局部变量 、 用户变量 、 会话变量 和 全局变量 ,其中局部变量只存在于函数和存储过程,这里不多了解。其中 会话变量 和 全局变量 在 MySQL 中统称为 系统变量 。用户变量SET 方式# 两种方式都可以SET @variable = exprSET @variable := exprSELECT 方式# 必须 :=SELECT @variab...
2019-06-17 16:51:43 8575
原创 Python项目生成requirements
详细版本见个人博客:Python项目生成requirements一起开发项目的时候总是要搭建环境和部署环境的,这个时候必须得有个Python第三方包的list,一般都叫做requirements.txt。本文介绍了两种生成requirements.txt的方法。一、使用pip freezepip freeze > requirements.txt这种方式配合virtualenv才...
2019-06-17 16:19:48 4039
转载 Python虚拟环境实践
开发每个Python项目时,都推荐创建对应的virtualenv来隔离开发。 这样可以不受系统Python软件包的影响,安装任意包的任意版本,并且最终能通过pip freeze > requirements.txt获取依赖列表。当然,这个列表通常需要裁剪。一、安装virtualenv使用apt、yum等包管理器安装的版本老旧,推荐使用pip安装。python3.6 -m pip ins...
2019-06-17 16:18:40 202
原创 Python集合用处
详细版本见个人博客:Python集合用处集合的最大特点是:集合里边的元素是不可重复的并且集合内的元素还是无序的。一般情况下集合常用的两个场景是:去重(如:列表去重);关系测试(如:取交集、取并集、取差集等)一、去重1、比较麻烦的方法——利用列表方法就是遍历一个列表,对其中的每个数据判断在不在第二个列表里list1=[1,2,3,4]list2=[3,4,5,6]list3...
2019-06-17 16:15:01 3499 1
原创 Python用list实现堆栈和队列
详细版本见个人博客:Python用list实现堆栈和队列Python中可以用list来模拟栈和队列:栈(stack):只能在一端进行数据操作,遵循后进先出(LIFO)原则队列(queue):可以在两端进行数据操作,遵循先进先出(FIFO)原则,出队列的一端称为队首,入队列的一端称为队尾一、栈1、栈要记录的数据栈顶位置top:注意这个top有两种理解方式,一种是表示栈的最后一个数...
2019-06-17 16:13:18 1818
原创 GitHub的Markdown文件插入公式方法
详细版本见个人博客:GitHub的Markdown文件插入公式方法Markdown 原生就是不支持LaTeX的,GitHub Flavored Markdown 同样不支持。Markdown 的初衷就是成为一种与HTML兼容的“易读易写”的轻量级的网络标记语言,并不要求支持 LaTeX。本文介绍以下两个方法来在GitHub的Markdown文件插入公式并显示。一、插入动态公式在Cod...
2019-06-17 16:10:28 5979
原创 链接到GitHub特定行号
详细版本见个人博客:链接到GitHub特定行号注意:不要只是链接到行号!一定要使用canonical URL(标准链接)。否则,当该文件更新时,有可能会指向错误行!首先点击你想要的行号(如第18行),你的浏览器中的URL将得到一个#L18,如下所示:https://github.com/git/git/blob/master/README#L18如果要选择多行,只需按住shift键,然...
2019-06-17 16:07:35 5701 1
原创 Seaborn lineplot图例标题设置
详细版本见个人博客:Seaborn lineplot图例标题设置一、问题描述下面是我的lineplot()代码,如果此方法用了hue参数同时绘制多个类别图,这时候seaborn会把这个hue的标签当做子标题。sns.lineplot(x="time", y="value", hue="category", data=df) 如果我用下面的方法,会产生一个新图例的标题,原来的图例标题并没...
2019-05-16 15:19:01 21195 2
原创 Seaborn双变量分布jointplot的坐标轴标签设置
详细版本见个人博客:Seaborn双变量分布jointplot的坐标轴标签设置一、问题描述我采用jointplot()进行双变量分布绘图:sns.jointplot(x, y)但是没法通过plt.xlabel来修改它的坐标轴标签。二、解决办法这里要用到JointGrid对象。jointplot()函数基于JointGrid对象来控制图形。我们可以直接使用JointGrid来获得...
2019-05-14 21:06:43 9379
转载 GitHub代理设置
详细版本见个人博客:GitHub代理设置国内git clone一个GitHub上的仓库太慢,经常连接失败。下卖弄是解决办法。一、代理设置1、全局代理设置git config --global http.proxy http://127.0.0.1:1080git config --global https.proxy https://127.0.0.1:1080这里可以打开SS查看...
2019-05-14 21:05:21 214582 1
原创 Python中list转换array的一个问题
详细版本见个人博客:Python中list转换array的一个问题我在数据分析过程中需要将list转换为array,但是转换的过程出了一点问题,下面是记录。一、list转换为array的方法下面的a是一个list类型,如果要进行numpy的一些数值运算,我们就需要将它转换为array类型。import numpy as npa = [[1,2,3],[4,5,6]]转换如下:i...
2019-05-14 21:03:40 8349
原创 Windows几个隐私设置
详细版本见个人博客:Windows几个隐私设置本文主要介绍Win10系统下的隐私设置:文件夹下不显示最近打开的文件、右键任务栏图标不显示最近打开的文件以及Win7系统下右键任务栏图标不显示最近打开的文件。一、Win10文件夹下不显示最近打开的文件win10系统的“最近使用的文件”功能,它可以让我们快速打开之前访问过的文件,但另一方面又让我们的隐私予以泄露,你看过哪些文件,别人通过“最近...
2019-05-14 20:46:46 2645
原创 Scrapy使用随机User-Agent爬取网站
详细版本见个人博客:Python fake_useragent报错解决方案在爬虫爬取过程中,我们常常会使用各种各样的伪装来降低被目标网站反爬的概率,其中随机更换User-Agent就是一种手段。在scrapy中,其实已经内置了User-Agent中间件:class UserAgentMiddleware(object): """This middleware allows spid...
2019-05-14 20:43:57 6660
原创 Python如何爬取不确定页数的网页
详细版本见个人博客:Python如何爬取不确定页数的网页一、问题分析我们通常遇到的网站页数展现形式有这么几种:第一种是直观地显示所有页数,显示在页面上。第二种是不直观显示网页总页数,需要抓包才可以看到,一般来说会有一个totalPage参数。第三种是不知道具体有多少页的网页。对于,前两种形式的网页,爬取方法非常简单,使用 For 循环从首页爬到尾页就行了,第三种形式则不适用,因为...
2019-05-14 20:42:34 10446 1
转载 Scrapy框架的使用之Item Pipeline的用法
Item Pipeline的调用发生在Spider产生Item之后。当Spider解析完Response之后,Item就会传递到Item Pipeline,被定义的Item Pipeline组件会顺次调用,完成一连串的处理过程,比如数据清洗、存储等。Item Pipeline的主要功能有如下4点。清理HTML数据。验证爬取数据,检查爬取字段。查重并丢弃重复内容。将爬取结果保存到数据库。...
2019-05-14 20:40:59 486
原创 Python requests发送post请求的编码问题
详细版本见个人博客:Python requests发送post请求的编码问题在HTTP协议中,post提交的数据必须放在消息主体中,但是协议中并没有规定必须使用什么编码方式,从而导致了提交方式的不同。服务端根据请求头中的Content-Type字段来获知请求中的消息主体是用何种方式进行编码,再对消息主体进行解析。具体的编码方式包括如下:application/x-www-form-urle...
2019-05-14 20:38:44 17578
原创 Git的Fast Forward和no fast foward合并模式对比
详细版本见个人博客:Git的Fast Forward和no fast foward合并模式对比通常,合并分支时,如果没有分歧解决,就会直接移动文件指针,这就是Fast forward模式。举例来说,开发一直在master分支进行,但忽然有一个新的想法,于是新建了一个dev的分支,并在其上进行一系列提交,完成时,回到master分支,此时,master分支在创建dev分支之后并未产生任何新的...
2019-05-14 20:34:13 9284 2
原创 Git远程分支的删除与同步
详细版本见个人博客:Git远程分支的删除与同步本文主要介绍Git同步远程已删除的分支的方法。一、删除远程分支命令删除远程分支命令:git push origin :readme或者:git push origin --delete readme二、同步本地的远程分支关键问题:另一个用户使用git fetch并不能同步获取到readme分支被删除。git fetch此命令...
2019-05-14 20:31:45 3548
转载 Git分支学习
详细可以参考个人博客:Git分支学习一、远程仓库有master和dev分支1、克隆代码git clone https://github.com/master-dev.git # 这个git路径是无效的,示例而已2、查看所有分支git branch --all 默认有了dev和master分支,所以会看到如下三个分支:master[本地主分支] origin/master...
2019-04-28 00:45:57 310
转载 Git如何clone所有的远程分支
详细可以参考个人博客:Git如何clone所有的远程分支Git clone只能clone远程库的master分支,无法clone所有分支,解决办法如下:找一个干净目录,假设是GitHubcd GitHubgit clone git@github.com:dta0502/Data-Analysis-In-Action.git,这样在GitHub目录下得到一个Data-Analysis-I...
2019-04-28 00:44:18 1814
原创 GitHub Fork的代码更新方法
详细可以参考个人博客:GitHub Fork的代码更新方法用户可以很方便的从别的仓库中复制一份代码(Fork)到自己的名下。但是有一个不足是GitHub并不提供自动更新功能,那么此时就需要我们自己手动更新这个Fork仓库代码。具体步骤** 1、安装 GitHub客户端 或者 Git。**** 2、clone 需要更新的 Fork 分支到本地**git clone git@github....
2019-04-28 00:42:11 4169
原创 Hexo-Yilia进阶笔记
详细版本见我的个人博客:Hexo-Yilia进阶笔记一、GitHub下载Yilia主题$ cd /d/document/GitHub/hexo/$ git clone https://github.com/litten/hexo-theme-yilia.git themes/yilia也可以直接去GitHub上下载zip文件,然后解压放在theme文件夹下面。二、分类的构建1、添加c...
2019-04-27 21:31:19 5764 7
转载 Hexo中插入HTML表格出现过多空白的解决办法
Hexo中插入HTML表格出现过多空白的解决办法早先我写博客的时候,就发现Hexo中插入HTML表格会留出大量空白。虽然markdown语法也是可以生成表格的,但是写的时候特别麻烦,所以我一直是直接插入的HTML表格的,仅仅是因为简单高效。当时,我刚搭建好这个博客,所以对hexo并不是很了解。我当时以为这只是在我个人markdown语法用的不对或者是编辑器造成的,造成了表格出现大量空白,此后也...
2019-04-27 00:43:03 1538
转载 MySQL求差集
求两个查询结果的差集,MySQL直接提供了关键字not in,但是not in的效率极其低下,这时我们可以使用左链接的方式求查询。例题:查询在usertable表中的用户但不在blog中的用户。NOT IN 实现SELECT id FROM usertableWHERE id NOT IN (SELECT id FROM blog);左外联结实现SELECT id FROM us...
2019-03-19 13:55:32 946
转载 SQL WEEK()函数
WEEK(date[,mode])函数说明此函数返回日期的周数。双参数的形式WEEK()允许你指定星期是否开始于周日或周一,以及是否返回值应在范围从0到53或从1到53。 如果省略了mode参数,系统default_week_format变量的值被使用。 Mode 一个星期的第一天 范围 Week 1 是第一个星期 ...
2019-03-11 13:13:15 20659
转载 MySQL中TIMESTAMPDIFF和TIMESTAMPADD函数的用法
本文介绍两个函数TIMESTAMPDIFF和TIMESTAMPADD。TIMESTAMPDIFF语法:TIMESTAMPDIFF(interval,datetime_expr1,datetime_expr2)。说明:返回日期或日期时间表达式datetime_expr1和datetime_expr2之间的整数差。其结果的单位由interval参数给出。该参数必须是以下值的其中一个:F...
2019-03-11 12:25:53 285
原创 【Leetcode】626. 换座位
题目描述小美是一所中学的信息科技老师,她有一张 seat 座位表,平时用来储存学生名字和与他们相对应的座位 id。其中纵列的 id 是连续递增的小美想改变相邻俩学生的座位。你能不能帮她写一个 SQL query 来输出小美想要的结果呢?示例:+---------+---------+| id | student |+---------+---------+| 1 ...
2019-03-07 16:36:36 413
原创 【Leetcode】184. 部门最高工资
题目描述Employee 表包含所有员工信息,每个员工有其对应的 Id, salary 和 department Id。+----+-------+--------+--------------+| Id | Name | Salary | DepartmentId |+----+-------+--------+--------------+| 1 | Joe | 70000 ...
2019-03-07 15:33:28 244
原创 【Leetcode】180. 连续出现的数字
题目描述编写一个 SQL 查询,查找所有至少连续出现三次的数字。+----+-----+| Id | Num |+----+-----+| 1 | 1 || 2 | 1 || 3 | 1 || 4 | 2 || 5 | 1 || 6 | 2 || 7 | 2 |+----+-----+例如,给定上面的 Logs 表, 1 是唯一...
2019-03-07 10:26:24 222
原创 【Leetcode】178. 分数排名
题目描述编写一个 SQL 查询来实现分数排名。如果两个分数相同,则两个分数排名(Rank)相同。请注意,平分后的下一个名次应该是下一个连续的整数值。换句话说,名次之间不应该有“间隔”。+----+-------+| Id | Score |+----+-------+| 1 | 3.50 || 2 | 3.65 || 3 | 4.00 || 4 | 3.85 ||...
2019-03-06 22:05:18 297
原创 【Leetcode】177. 第N高的薪水
题目描述编写一个 SQL 查询,获取 Employee 表中第 n 高的薪水(Salary)。+----+--------+| Id | Salary |+----+--------+| 1 | 100 || 2 | 200 || 3 | 300 |+----+--------+例如上述 Employee 表,n = 2 时,应返回第二高的薪水 200。...
2019-03-06 20:06:19 249
原创 【Leetcode】627. 交换工资
题目描述给定一个 salary 表,如下所示,有 m=男性 和 f=女性 的值 。交换所有的 f 和 m 值(例如,将所有 f 值更改为 m,反之亦然)。要求使用一个更新(Update)语句,并且没有中间临时表。请注意,你必须编写一个 Update 语句,不要编写任何 Select 语句。例如:| id | name | sex | salary ||----|------|-----|...
2019-03-06 16:54:22 232
原创 【Leetcode】595. 大的国家
题目描述这里有张 World 表+-----------------+------------+------------+--------------+---------------+| name | continent | area | population | gdp |+-----------------+---------...
2019-03-06 16:09:12 221
原创 【Leetcode】596. 超过5名学生的课
题目描述有一个courses 表 ,有: student (学生) 和 class (课程)。请列出所有超过或等于5名学生的课。例如,表:+---------+------------+| student | class |+---------+------------+| A | Math || B | English || ...
2019-03-06 15:59:07 216
原创 【Leetcode】197. 上升的温度
题目描述给定一个 Weather 表,编写一个 SQL 查询,来查找与之前(昨天的)日期相比温度更高的所有日期的 Id。+---------+------------------+------------------+| Id(INT) | RecordDate(DATE) | Temperature(INT) |+---------+------------------+--------...
2019-03-06 15:12:48 298
CSS: The Missing Manual, 4th Edition
2018-11-17
国家统计局区划、城乡划分代码全部数据---csv格式
2018-08-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人