TF-IDF学习完全指南

目标:写给完全没有算法基础的同学们学习TF-IDF 目录: 在什么场景下我们需要TF-IDF TF-IDF是什么 TF-IDF应用 Python3 实现TF-IDF 总结 一、什么场景下我们需要TF-IDF 在当前工作中,很多时候,我们需要从非结构化的文本中,提取出结构化的数据。这也可以被称为...

2019-09-15 13:13:32

阅读数 94

评论数 0

sys模块和os模块

算来,摸鱼写代码,都写了一年了。 这一年,我都还是没有搞清楚sys和os模块,为啥存在,他们的作用是啥? 今天中秋,我决定,好好研究以下,精通甚于不求甚解。⛽️⛽️ Python本身就内置了很多非常有用的模块,只要安装完毕,这些模块就可以立刻使用。 #!/usr/bin/env python # ...

2019-09-13 14:21:11

阅读数 1

评论数 0

Mac Terminal 目录跳转命令

1. 文件目录 首先要清楚几个文件目录: /根目录 ~用户主目录的缩写。例如当前用户为 hello,那么 ~, 展开来就是 : / Users/ hello .当前目录 ..父目录 2. 命令 cd跳转到某个目录 cd / 跳转到根目录 cd ~ 跳转到用户主目录 cd ~apple 表示跳转到...

2019-09-08 17:57:25

阅读数 1

评论数 0

Xcode

今天在安装lightbgm,在各个教程,都看到了Xcode。虽然,很烦这个东西,但是决定仔细了解一下这是个啥玩意~ 1. 什么是Xcode Xcode 是运行在操作系统Mac OS X上的集成开发工具(IDE)。Xcode是开发 macOS 和 IOS 应用程序的最快捷的方式。 Xcode 具有统...

2019-09-08 17:36:27

阅读数 0

评论数 0

什么时候需要填充 -999

什么时候需要填充 -999 最近在看kaggle 的ieee,发现其中一个kernel,尤其简单。 发现,其对数据做的所有处理,只有 X_train = X_train.fillna(-999) X_test = X_test.fillna(-999) 觉得很好奇,为什么可以只填充 -999 ...

2019-09-08 14:42:56

阅读数 3

评论数 0

稀疏矩阵

稀疏矩阵是什么? 对于一个矩阵,如果其为0的元素多于非0的元素,且为0的元素没有排列规律,则其是稀疏矩阵。 如果非0的元素多于为0的元素,则其实稠密矩阵。 ...

2019-07-25 15:16:48

阅读数 5

评论数 0

计算机组成原理

计算机系统简介 基本部件的结构和组织方式 基本运算的操作原理 基本部件和单元的设计思想 课程的分隔整合 计算机组成原理之机器 计算机系统的基本概念 总线 存储器 输入输出系统 计算机组成原理之数字 计算机中数的表示 计算机的运算方法和运算器 计算机组成原理之CPU 指令系统 CPU的...

2019-05-21 12:46:15

阅读数 31

评论数 0

Mac部署Hexo详细教程

参考: Mac系统中的根目录和home目录分别指什么,他们有关系? Downloading and installing Node.js and npm mac环境下搭建hexo+github pages+next个人博客 hexo中文文档 Node Version Manager - Simp...

2019-04-30 21:25:23

阅读数 330

评论数 0

node.js和JavaScript的关系

1. 什么是node.js node.js是一个基于 Chrome V8 引擎的 JavaScript 运行时的环境。 2. 什么是JavaScript 2.1比较JavaScript 和 Java 两者之间没有关系 V8是google开源的JavaScript引擎,用于执行JavaScript...

2019-04-25 10:06:37

阅读数 57

评论数 0

如何在Mac上查找是否安装了git

背景: 最近在给自己搭建Hexo,但是操作过程中,发现自己的很多盲区,比如:对安装包的安装管理没有概念,对自己用的git到底是什么,也没有沉下心去深入了解,因此,决定,洗心革面,好好记录一下。 Git 是什么 首先,我们来了解一下git是什么? Git是目前世界上最先进的分布式版本控制系统。 参考...

2019-04-24 10:17:16

阅读数 324

评论数 0

给hexo安装主题

本篇文章,主要包含以下几个部分: Hexo简介 如何给hexo设置好看的主题 Hexo简介 hexo 是一个快速、简洁且高效的博客框架。Hexo 使用 Markdown解析文章,在几秒内,即可利用靓丽的主题生成静态网页。 安装教程:https://blog.csdn.net/qq_342907...

2019-04-23 16:03:28

阅读数 49

评论数 0

在Pandas中使用iloc, loc和ix来选择行和列

1. 主要用法 在Pandas里面,主要由3种方法来选择数据。 通过行来选择(.iloc) 通过label和条件表达来选择数据(.loc) 2. 使用iloc来选择数据 iloc意味着integer-location based indexing / selecting by position...

2019-03-20 10:12:16

阅读数 489

评论数 0

迁移学习

1. 迁移学习历史 迁移学习,允许领域,任务,以及训练集和测试集的分布不一样。在现实生活中,我们也能发现很多迁移学习的案例。迁移学习的概念来自于,人类可以将利用学习过的知识来处理新的问题。 2. 迁移学习技术的分类 2.1 迁移什么 迁移什么回答的是:在不同的领域和任务之间,知识的哪一部分可以被迁...

2019-03-19 15:45:58

阅读数 28

评论数 0

二分类比赛流程

数据预处理 确认数据是否完整(nan,类型异常) 将string类型,换成category(使用Onehot或者LabelEncoder) 数据标准化(MirmaxScaler或者StandardScaler) 保存数据(因为部分预处理过程会比较耗时,所以需要保留中间结果) 模型选择 一般来...

2019-03-18 09:06:50

阅读数 119

评论数 0

jupyter notebook插入本地图片

如何在Jupyter Notebook中插入本地图片? 我在网上搜索的时候,看到网上写的都是,将cell调节成为markdown cell, 然后输入下面的代码 ![title](img/picture.png) 于是,在调节了路径之后,我按照上方的说明进行了操作,但是显示图片无法显示。 我思考...

2019-03-15 17:54:52

阅读数 1020

评论数 0

os.listdir()

在数据算法竞赛中,我经常看见别人的代码中出现下面几行代码: import os print(os.listdir('path')) 我最开始对os.listdir('path')的理解是,返回当前工作区域的下的文件,因此我一直不明白,为什么,我需要import os而不是直接用ls就好。 后来,...

2019-03-15 11:37:24

阅读数 282

评论数 0

Cross-Validation (交叉验证)

在机器学习的监督学习中,通常我们会有一个数据集A,但是在我们训练模型的时候,不可能把数据集A全部拿来训练模型,因为,如果这样做了,我们就没有办法验证和评估我们模型的表现。 要想解决这个问题,我们就需要从我们的数据集A中,取出一部分,来验证我们模型在没有见过的数据集上的表现。那么就有一个问题,我们该...

2019-03-13 17:21:54

阅读数 23

评论数 0

LightGBM相关使用

1. 数据接口 LightGBM Python模块使用以下几种方式来加载数据: libsvm/tsv/csv Numpy 2D array, pandas object LightGBM binary file 加载后的数据存在Dataset对象中。 要加载ligsvm文本文件或LightG...

2019-03-09 17:18:06

阅读数 33

评论数 0

ML竞赛步骤

在进行数据竞赛时候,拿到一个数据集,应该进行如下操作: 查看train中label的分布,主要查看正负样本是否均衡,以及主办方是否有将数据集打乱,如果数据集样本没有打乱,可能会存在data leak,这一步需要用到的代码有如下 train['target'].value_counts() #...

2019-03-08 23:11:48

阅读数 45

评论数 0

谈一谈二分类比赛中常用的KFold, StratifiedKFold K折交叉切分

我在最近的好几场二分类赛事中,看到别人分享的kernel,都用到了KFold,因此我准备详细记录一下KFold和StratifiedKFold的用法。 1. KFold 和StratifiedKFold有什么区别 StratifiedKFold的用法类似KFold,但是SKFold是分层采样,确...

2019-03-07 11:27:37

阅读数 534

评论数 0

提示
确定要删除当前文章?
取消 删除