自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Kidpea LAU ' BLOG

博觀而約取,厚積而薄發

  • 博客(29)
  • 收藏
  • 关注

原创 数据分析入门——推荐基础书以及实用网站

数据分析入门:       一开始肯定是数学基础巩固:       线性代数、统计论等。参考书成千上百,最重要还是理解透!       二就是各种软件的熟悉利用:EXCEL SPSS SAS 等,这是我桌面常用到的软件:                       三便是进阶版,编程语言的使用了,刚开始SQL 非常容易上手,R语言多做练习跟着视频处理一些数据也非常容易 ,R里面...

2018-09-24 16:29:53 2128

原创 物理学转行?读了四年物理学,优势在哪里?

      最近刚好看了 Move Over, Coders—Physicists Will Soon Rule Silicon Valley 的这篇文章,主要介绍了《连线》杂志的资深撰稿人 Cade Metz 撰文表达了对物理学家进军 AI 及机器学习领域的看法。Oscar Boykin认为【对物理学家来说,这是个“最坏”的时代】,怎么说,比如能力相当的物理学家工资可能远不足于其AI ,BI...

2018-09-24 13:04:40 3596

原创 数据分析——当你拿到数据,开始要做什么?

数字化革命,第四次科技革命,因计算机和电子数据的普及和推广而在各行各业发生的从机械和模拟电路到数字电路的变革。大数据现今大热,并热度持续升高。了解大数据、数据分析如今非常重要。这篇文章,先讲我在数据分析领域的学习笔记,主要着重在数据整理方面 。数据整理是获取原数据,理解这些数据,清洗它们。 通常第一步我们拿到数据,很多人非常着急的马上开始研究如何建模分析,实际上,一开始整理数据非常重要。数...

2018-09-19 14:59:06 4263 1

原创 字符串中的第一个唯一字符 find the first non-repeating character

--Given a string, find the first non-repeating character in it and return it's index. If it doesn't exist, return -1.--给定一个字符串,找到它的第一个不重复的字符,并返回它的索引。如果不存在,则返回 -1。s = "leetcode"返回 0.s = "lov...

2019-04-17 04:02:11 607

原创 Python :compute two arrays‘ intersection

Given two arrays, write a function to compute their intersection.给定两个数组,编写一个函数来计算它们的交集。EX1:Input: nums1 = [1,2,2,1], nums2 = [2,2]Output: [2,2]EX2:Input: nums1 = [4,9,5], nums2 = [9,4,9...

2019-04-16 21:31:10 344

原创 NLP实践-SwiftKey预测输入法(一)

目录0.准备阶段:·了解数据的结构:·数据的来源:·依靠外部的数据材料来优化此数据的处理·NLP的普遍处理步骤·text mining的普遍步骤和要求·NLP与data science 基础知识的联系: 1.加载与初步处理数据:·加载数据。·了解基本数据的内容 -标记化      -亵渎过滤·基本处理数据 ·相关练习:2、探索数据阶段...

2018-10-28 18:29:49 1250

原创 Data Science Capstone-Quiz 1

这个是有关“”数据的加载以及清理相关练习:数据的下载可以详细看 : NLP练习数据在练习的开展前,首先要下载数据以及加载相关的包。这份dataset包含的数据非常大,其中LOCALE是四个语言环境en_US,de_DE,ru_RU和fi_FI。下面练习只会用到英语数据库(English database),而且不一定需要加载整个数据集来构建算法 。library(tm)## Loa...

2018-10-28 18:28:26 487

原创 正则表达式(Regular Expression) REGEX

A formal language for specifying text strings正则表达式为文本模式的匹配提供了一套 清晰而简练的语法,在处理字符函数时,提供了简单快捷的方法,也这扩展了搜索特定位文本以进行搜索的想法,一些可能适合更广泛模式的文本。例如,正则表达式: ^[hc]?at则可匹配任意以0个或1个h或c开头、后接at的字符串。因此,此表达式可以匹配hat、...

2018-10-27 01:22:41 425

原创 R数据分析——回归分析

 回归分析:      回归分析可谓统计学的核心。回归分析是指一个或多个自变量(Xi)来预测因变量(Yi)的方法。       其基础思想是最少二乘法(OLS:ordinary least square):...............(1)要得到拟合得最好的(1),要使其残差平方和(RSS:residual sum of squares/sum squared residual)要达...

2018-10-24 22:11:05 4530

原创 R数据可视化工具 -ployly入门:

 plotly开发在线数据分析和可视化工具。 Plotly为个人和协作提供在线图形,分析和统计工具,以及Python,R,MATLAB,Perl,Julia,Arduino和REST的科学图形库。                                                                                                    ...

2018-10-21 17:46:31 1838

原创 Developing Data Products Quiz 3 答案以及詳解:

這是Cousera Data science 的Developing Data Products  Quiz 3:【具體課程網頁:Developing Data Products by Johns Hopkins University】 這周主要學習R包,而考察的内容也是R包内的: Q1:Which of the following items is required fo...

2018-10-21 01:54:53 560

原创 Regression Models QUIZ 2

it s the quiz from the Regression Models course .Q1Q2Q3Q4Q5Q6Q7Q8Q9 Q1Consider the following data with x as the predictor and y as as the outcome.x <- c(0.61, 0.93, 0.83,...

2018-10-08 15:11:59 319

转载 个人整理:R语言 -数据清理常用包

整理了一些常用于raw data 的整理会用的包,希望给新手的大家提供一些开始的想法:       附了 其中我觉得关于这些包使用的方法写的博客。lubridate—轻松处理日期时间 字符串处理包stringr dplyr-高效的数据变换与整理工具 数据重塑之tidyr包 数据的标准化与中心化以及R语言中的scale详解 ggplot2 ...

2018-09-30 01:45:37 1977

原创 Storm Data preprocessing

 The data s huge and mass, and there are loads of ways to preprocessing  the data .  The way i dealed with it  , probably is not  really good ,but still can show what i need . When i started prep...

2018-09-28 18:25:48 207

原创 Statistical Inference-伯努利分布(Bernoulli Distribution)以及例子说明

Example:扔硬币8次,7次为头(1)的概率? ······································································(1.1) ··························································································...

2018-09-27 14:54:37 3387

原创 数据分析:分析性图表

版权声明:本文为博主原创文章,未经博主允许不得转载。  ·ANALYTIC GRAPHS分析性图表:塔夫特的基本原则:明确参照物Show comparisons 这一点基本是 所有科学的一个基本思想,也就是支持某一假设或某个对世界的思考之证据,一定与另一个假设是相对的 , 证据总是相对的。 箱线图 (boxplot)   体现出因果关系或机制 Show causalit...

2018-09-23 15:17:43 1335

原创 Getting and Cleaning Data-Week 4 Quiz

 目录Q1:Q2:Q3:Q4:Q4:Q1:The American Community Survey distributes downloadable data about United States communities. Download the 2006 microdata survey about housing for the state of Idah...

2018-09-21 16:39:17 607

原创 三星GALAXY智能手机数据分析的准备:Preparation OF Data Analysis.Data from" Samsung Galaxy S smartphone"

This s my "Getting and Cleaning Data Course" Project.目录1.load the data in R2.Merges the training and the test sets to create one data set.3.Extracts only the measurements on the mean and stand...

2018-09-21 14:19:03 431

原创 LOAD the data R语言-如何加载数据?

this s the example to load ur data ! 下面是一个用来加载数据的基本代码以供参考:#clean workspace and setup working directoryremove(list=ls())setwd("C:\....")getwd()#create a folder and download filesif(!file.exi...

2018-09-21 14:07:43 7989

原创 用R获得你想要的原始数据-如何下载

#创建数据文件保存路径文件夹if(!file.exists("data")){ dir.create("data") }#下载数据文件fileUrl <- "web"download.file(fileUrl,destfile="path",method="curl")#mark好下载的时间dataDownloaded <- date()&

2018-09-20 21:10:39 1902

原创 R语言数据整理 之 重塑

数据重组对数据分析非常重要。将杂乱的数据整理成整洁当中的学问不得忽视。然而,整洁的标准是什么呢? 可看看这个文章 --> 何为整洁的数据?可简洁得整理为以下三点:每个变量各占一列; 每个观测值各占一行; 每个表格或者文件只储存一种观测值的数据。下面用到mtcars的数据:> head(mtcars) mpg cyl disp ...

2018-09-20 16:36:41 1520

原创 R语言数据处理 之 创建新变量

初步的数据处理,通常要创建新的变量。其实,创建新变量可以:避开未经处理的数据未有所需数据的难处; 变换一些已有数据,以更好的为下一步分析作准备;而常创建的新变量有: 缺失值指针 (Missingness indicators) :指出在哪些地方有数据缺失  分段数值型数据 ("Cutting Up" quantitative variables):数值型变量对应一些特定值划分而成的因...

2018-09-20 15:37:51 32035

原创 R语言检索

 先模拟一组数据来使用,如下: > X<-data.frame("v1"=sample(0:10),"v2"=sample(10:20),"v3"=sample(20:30))> X<-X[sample(0:10),]> X$v2[c(1,3)]=NA> X v1 v2 v34 3 NA 308 8 10 207 6 NA 2..

2018-09-20 13:31:29 1701

转载 R读取数据的练习

the tasks from <<Getting and Cleaning Data>> WEEK 2 . Q1:Register an application with the Github API here:https://github.com/settings/applications.Access the API to get information ...

2018-09-19 16:10:05 354

原创 R语言中实现随机分布

非常多的应用需要用到随机数,而R语言在simulating random numbers非常的有强大的工具可供使用。在R中各种概率函数都有统一的形式,即一套统一的 前缀+分布函数名:如:1.  r*** function (for "random"随机函数), a d*** function (for "density"密度函数), a p*** (for "probability"分...

2018-09-19 16:07:55 11625 1

原创 怎么看待R语言中的Lexical Scoping Rules?

刚学习R遇到这个Scoping Rules(范围规则) 还是常令人挠头想不通的,下面整理一下自己的学习笔记:          在函数内部的变量可以分为三类: 形式参数 (formal parameters), 局部变数 (local variables) 和 自由变数 (free variables). formal parameters, local variables and free ...

2018-09-19 16:05:56 1216

原创 R语言实现循环loop的函数解读(带练习)

循环在处理数据的时候非常重要,但不得不说写function的时候还是得绕不少弯路,好在现在R语言有非常多函数可以直接使用,带来不少便利。在学习写looping function 的时候,可以先熟练掌握了以下向量化操作apply、tapply、lapply、sapply、mapply的函数,然后再自己尝试写自己的:lapply lapply(X,FUN,...) ,注意:若X不是列表,但会...

2018-09-18 15:44:20 11173

原创 R Programming Week 3 Quiz & Ans

Q1:Take a look at the 'iris' dataset that comes with R. The data can be loaded with the code:> library(datasets)> data(iris)A description of the dataset can be found by running>?ir...

2018-09-18 15:15:51 4013 1

原创 Lexical Scoping练习以及详细答案分析

    This s an R function which is able to cache potentially time-consuming computations.     Matrix inversion is usually a costly computation and there may be some benefit to caching the inverse o...

2018-09-17 16:01:18 785

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除