自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Skye's Blog

R/python 的数据分析,人工智能等 技能增进中......

  • 博客(31)
  • 收藏
  • 关注

原创 分類算法實作 Titanic disaster dataset

資料處理流程資料前處理簡單的Feature Engineering只保留Cabin的艙位號(前面的字母)。把Name中的有一定含義的 title 元素提取出來,並將比較少用的title合併到比較常用的tittle中,建立一個新的類別“Title”把姓氏提取出來,創建新的類別“Surname”Missing DataNA值 & 空白值減少資料量屬性的篩選:刪掉不要的屬性正規化處理模型的建立隨機森林(Random Forest)SVM(Support

2021-06-30 16:35:25 206

原创 Coursera ML week1 综述&梯度下降

week 1What is machine learning?课程中给出了两个定义:1:Arthur Samuel (1959). Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed.这个是一种更久远的定义,Arthur Samuel将其定义为 “给予计算机能自我学习的能力而不是编程”2:Tom Mitchell (1998) W

2020-06-02 00:54:17 333

原创 DataCamp:用pandas进行数据处理

DataCamp上 Data Manipulation with pandas 的笔记记录Inspecting a DataFrame.head():返回DataFrame的前几行。.info():显示每一column的信息,包括数据类型、Na值的多少。.shape:返回每row每column的数量。.describe():对每一列进行一个简单的统计。homelessness 是一个数...

2020-04-02 00:09:02 13435

原创 panda开始python的数据科学

话不多说就开始吧!import pandas as pd# 读入 csv 文字档gapminder = pd.read_csv('gapminder.csv')# 读取excel档 gapminder = pd.read_excel(xlsx_file)print(type(gapminder))gapminder.head()<class 'pandas.core.fram...

2020-04-01 22:37:29 616

原创 模型的评估:性能量度

对学习器的泛化能力的评估需要一套标准,也就是性能量度(performance measure)。使用不同的性能量度往往会导致不同的评判结果,所以模型的好坏是相对的。所以什么样的模型是好的不仅取决于算法和数据,还取决于任务需求。不要以为的掉进更复杂更难的模型就一定更好的陷阱。回到模型评估回归任务回归任务中,我们要预测一个连续的值,最常见的就是“均方误差”(MSE)分类任务1、正确率、错误...

2020-03-18 20:17:26 387

转载 HTML 中的 Flex 布局

一、Flex 布局是什么?Flex 是 Flexible Box 的缩写,意为"弹性布局",用来为盒状模型提供最大的灵活性。任何一个容器都可以指定为 Flex 布局。.box{ display: flex;}内联元素也可以使用 Flex 布局。.box{ display: inline-flex;}Webkit 内核的浏览器,必须加上-webkit前缀。.box{ ...

2020-03-11 11:33:16 2191

转载 CSS 知识点简介

什么是CSS?CSS是Cascading Style Sheets的简称,中文称为层叠样式表,用来控制网页数据的表现,可以使网页的表现与数据内容分离功能:操纵html标签需要知道:怎么找到html的标签如何操纵标签对象一、CSS的引入方式行内引入:行内式是在标记的style属性中设定CSS样式。这种方式没有体现出CSS的优势,不推荐使用。<p style="back...

2020-03-10 10:43:37 234

转载 HTML 知识点简介

HTML 是什么?HTML(htyper text markup language) 即超文本标记语言超文本: 就是指页面内可以包含图片、链接,甚至音乐、程序等非文字元素。标记语言: 标记(标签)构成的语言.网页==HTML文档,由浏览器解析,用来展示的静态网页:静态的资源,如xxx.html动态网页:html代码是由某种开发语言根据用户请求动态生成的标签什么是标签?是由...

2020-03-10 08:04:43 232 1

原创 R 文字挖掘基本流程

文字挖掘的基本流程:需要的工具套件:内容来源:guternbergr 古腾堡计划,提供很多书籍电子版资料,可以用guternbergr套件以编号直接下载书籍自己爬取内容:现成的爬虫工具,自己写爬虫基本文字处理:dplyr、tidytext 包断词系统:jiebar包基本断词自定义使用者断词词典自定义停用词欢迎关注【数据小盐罐儿】一个很“咸”的数据科学公众号,不定期分享有趣...

2020-03-05 22:14:37 357

原创 R 文字处理

R 文字处理基本处理:• 切割:strsplit()• 子集:substr()• 大小写转换:toupper()tolower()• 两个文字连接:paste()paste0()• 文字取代:gsub()• 前后空白去除:str_trim()需要安装stringr包• 字符串的统计:nchar()# 用空格分割strsplit("Hello World"," ") ...

2020-03-05 22:07:07 419

原创 Jupyter Lab 输出为md html pdf 格式

想将Jupyter lab 的 .ipynb格式的文档输出成为html格式,在网上查了很多方法,安装了各种插件。但后来发现其实有一个Jupyter lab本身就可以直接输出很多格式的,而且优化的也很不错。基本上可以满足各种需求了File --> Export Notebook As...

2020-03-05 17:51:40 1780

原创 在Jupyter lab中安装R packages(Anaconda的环境下)

在Jupyter lab中安装了R 环境之后会发现,有很多packages没有安装。第一种安装方式:conda …在terminal 中输入 conda install package_name,例如,要安装 python 的 numpy 包,请键入 conda install numpy 。R由于需要镜像环境,所以安装起来会经常出现一些问题。另外一些常用的conda命令:conda u...

2020-03-01 23:18:26 1263

原创 Jupyter lab 几个好用的小功能

Jupyter lab 界面简介几个常用的小功能tab按住tab补全函数XX?可以直接在函数后面添加“?”查看变数的文档资料print?# Docstring:# print(value, ..., sep=' ', end='\n', file=sys.stdout, flush=False)# Prints the values to a stream, or ...

2020-02-29 12:08:35 3967 2

原创 在Jupyter Notebook/Lab中添加R Kernel

做数据分析的时候经常会用到 Jupyter Lab和Rstudio,但是两个软件来回转换,总是有些麻烦不够高效。所以将R Kernel加入Jupyter Lab方便同时用python 和 R来写代码。1. 安装Anaconda在Anaconda官网自行下载适合的版本2. 打开R,安装相关包,需要选择镜像之后才能继续安装install.packages(c('repr', 'IRdispla...

2020-02-29 07:58:58 3935

转载 15个好用的Jupyter Lab插件

本文转自:知乎作者:朱卫军《15个好用到爆炸的Jupyter Lab插件》文中我加入了一些自己的标注和笔记最近在从Jupyter Notebook向Jupyter Lab转,倍感舒适。Lab和Notebook是一家人,前者算后者的升级加强版。Lab相比较Notebook最大的优势在于它的用户界面集成强,适合多文档协助工作。而且Lab是可拓展的,插件丰富,非常像vs code,但又...

2020-02-28 16:33:37 3166 1

原创 R 数据的预处理:数据集的合并

合并数据集很多情况下,数据集都不会只有一个文件,但是为了方便后续的处理和分析,在预处理的阶段就会将各个数据集进行合并。

2020-02-27 22:30:22 967

转载 深度学习--面试题目

● BatchNormalization的作用参考回答:神经网络在训练的时候随着网络层数的加深,激活函数的输入值的整体分布逐渐往激活函数的取值区间上下限靠近,从而导致在反向传播时低层的神经网络的梯度消失。而BatchNormalization的作用是通过规范化的手段,将越来越偏的分布拉回到标准化的分布,使得激活函数的输入值落在激活函数对输入比较敏感的区域,从而使梯度变大,加快学习收敛速度,避免...

2020-02-26 15:45:02 4856

转载 Python Lex Yacc手册

本文是PLY (Python Lex-Yacc)的中文翻译版。转载请注明出处。如果你从事编译器或解析器的开发工作,你可能对lex和yacc不会陌生,PLY是David Beazley实现的基于Python的lex和yacc。作者最著名的成就可能是其撰写的Python Cookbook, 3rd Edition。我因为偶然的原因接触了PLY,觉得是个好东西,但是似乎国内没有相关的资料。于是萌生了翻...

2020-02-23 22:22:46 5088

翻译 人工智能如何重塑未来的教育

最近看到太多网课所引发的令人哭笑不得的事情,这不禁让人有一种教育好像被人工智能所遗忘的错觉。在AI飞速发展的今天我们的教育方式却好像几百年未曾有过什么大的改变。Ben Dickson 在下文中就重点讨论了,人工智能在教育领域的发展以及一些问题。文章:How Artificial Intelligence Is Shaping the Future of Education作者:Ben...

2020-02-19 12:22:02 1596

原创 python 爬虫基础:BeautifulSoup 库

本文主要是 MOOC嵩天老师的《Python网络爬虫与信息提取》课的笔记以及总结。Bs 的标准代码其实很简单,第一行开启bs第二行 解析,第一个参数是要解析的html格式的信息,第二个是解析这锅汤要用到的解析器BeautifulSoup 的基本元素只要提供的是标签类型的解析内容,就可以进行解析标签的基本结构,标签里面的域是以键值对的形式存在的可以讲bs的作用理解为把标签树转化为...

2020-02-17 02:50:04 184

原创 python 爬虫基础:requests库

本文主要是 MOOC嵩天老师的《Python网络爬虫与信息提取》课的笔记以及总结。简单介绍相关的几个packagerequests --> beautifulsoup --> rerequests : 获取网页信息(自动爬取html页面,自动提交网络请求)beautifulsoup:解析网页内容Re :正则表达式,更进一步提取关键信息一、requests 库的简单介绍...

2020-02-16 23:44:13 260

翻译 4个可提高深度学习模型的性能的小技巧

概述深度学习是一个广阔的领域,但我们大多数人在构建模型时都面临着一些共同的挑战在这里,我们讨论4个这样的挑战和技巧,以提高您的深度学习模型的性能这是一篇以代码为中心的实践文章,因此准备好 Python IDE 并改进您的深度学习模型!介绍在过去的两年里,我大部分时间都只在深度学习领域工作。这是一个相当的经验 - 工作在多个项目,包括图像和视频数据相关的项目。在那之前,我一直徘徊在深度学习概...

2020-02-13 07:59:30 2313

翻译 除了R和Python你需要知道的6种数据科学编程语言

本文译自:《6 Useful Programming Languages for Data Science You Should Learn (that are not R and Python)》编译:Skye总览您应该为数据科学选择哪种编程语言?以下列出了6种非Python或R的强大工具,这些语言的范围很广,通常在数据科学领域中使用,我们还为每种语言提供了开放源代码库,以帮助您开始...

2020-02-11 13:21:08 1867

原创 R 无监督聚类算法(1)K-means和层次聚类

首先我们要解决几个问题聚类算法主要包括哪些算法?主要包括:K-means、DBSCAN、Density Peaks聚类(局部密度聚类)、层次聚类、谱聚类。什么是无监督学习?• 无监督学习也是相对于有监督学习来说的,因为现实中遇到的大部分数据都是未标记的样本,要想通过有监督的学习就需要事先人为标注好样本标签,这个成本消耗、过程用时都很巨大,所以无监督学习就是使用无标签的样本找寻数据规律的一种...

2020-02-09 10:37:05 6273 1

翻译 python数据科学家的学习路径。

原文地址:Comprehensive learning path – Data Science in Python假如你想成为一个数据科学家,或者已经是数据科学家的你想扩展你的技能,那么你已经来对地方了。本文的目的就是给数据分析方面的Python新手提供一个完整的学习路径。该路径提供了你需要学习的利用Python进行数据分析的所有步骤的完整概述。如果你已经有一些相关的背景知识,或者你不需要路径中...

2020-02-08 11:04:55 932 1

原创 R 基础知识:数据结构(2)data.frame , matrix 和array

1.data.framedata.frame是R语言用来处理表格式数据的数据结构。我们可以运用data.frame()函数手动创造数据框,让我们建立一个很简单的数据框叫做greatnbateams,这个数据框有队名、胜场数、败场数、是否获得总冠军与球季。team_name <- c("Chicago Bulls", "Golden State Warriors")wins = c(72...

2020-02-07 23:34:41 2403

原创 R 基础知识:数据结构(1)list 和 factor

R语言中基本的数据单位是向量(vector),通过对于向量的堆叠我们能组合出更进阶的数据结构。这些数据结构包括弹性容器:list;有阶阶层的向量:factor;数据框:data.frame;二维的向量:matrix;阵列:array。1. list若我们用向量c()存储数据,因为其中有文字向量,所以在所有数据都会变成文字向量。# 以朱元璋为例name = "zhuyuanzhang"ni...

2020-02-06 11:58:08 1245

原创 R 数据的预处理:数据的读写

比较两种写入方式 write. *(), write_()# 先简单建个数据框# 产生一组随机数,从0~1 共10^6个,共1000rowsreadFile = as.data.frame(matrix(runif(10 ^ 6 ,0,1), nrow=1000)) # 如果设定的名字不变,重复写入的时候,新档会覆盖旧档# 比较两种写法的速度write.csvsystem...

2020-02-05 22:52:27 298

原创 R 数据的预处理:删减不需要的数据

R的数据处理很常用的package“dplyr”里面select( )常被用来做数据的删减1. select( ) 的用法以mtcars数据集为例head(mtcars,3)# mpg cyl disp hp drat wt qsec vs am gear carb# Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4# Mazda RX...

2020-02-04 23:26:49 1356

原创 R 数据的预处理:数据中缺失值(NA)的处理

训练一个机器学习模型,其实大量的时间是花在数据的预处理和探索性数据分析上。尤其是实际中遇到的data都不会太干净,所以花较长的时间来做数据的预处理是很有必要的。首先来建立一个简单的数据集library(mice)name = c(“Andy”,“Helly”,“Ann”,“Ketay”,“Wang”,“Liu”)country = c(“UK”,“US”,“US”,“US”,“CH”,“C...

2020-02-04 21:44:24 8843

原创 R 探索性分析的可视化(1)

以iris资料集为例,我们做一个简单的探索性的数据分析。目的是是为了看到各个变量的分布,以便于我们后面对于一些不平衡的变量进行处理首先要对数据集包含的内容有一个大致的了解# 查看这个数据集包含的变数,以及每个变数的数据形态。也可以用str()来查看形态head(iris) # 查看类别变数中每个种类的数量table(iris$Species)然后我们透过不同的图来来进行更全面分析...

2020-02-04 12:28:42 319

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除