- 博客(843)
- 资源 (1)
- 收藏
- 关注
原创 Hadoop平台搭建与数据分析
Hadoop是由Apache 研发的开源分布式基础架构,它由 Hadoop内核、MapReduce、Hadoop分布式文件系统(HDFS)及一些相关项目组成。其中,HDFS具有高容错性,负责大数据存储;MapReduce则负责对HDFS中的大量数据进行复杂的分布式计算。为了让学生更好地将理论与实践相结合,以Hadoop-3.3.4平台的搭建和数据分析为主线,我设计了包含5个实验在内的一系列实验。
2023-09-06 14:26:46
172
原创 【应用统计学】方差分析
三台设备平均灌装时间分别是15.82秒、16.67秒和14.97秒。试用样本数据检验这3台机器灌装过程的时间是否存在显著不同,以便对设备的购买做出决策
2022-10-27 17:12:26
4154
2
原创 【应用统计学】总体方差的假设检验
《财富》(美)杂志做了一次调查,发现订阅该杂志的人拥有一辆或租用一辆车子数的方差为0.94。假设另一份杂志的订阅者拥有或租用的车辆数如下所示:2,1,2,0,3,2,2,1,2,1,0,1试问:在10%显著水平下,该杂志车辆数方差是否与《财富》的车辆数方差相同?
2022-10-03 19:23:00
2209
原创 【应用统计学】总体均值的假设检验
和区间估计类似,如果总体标准差已知,对于总体服从正态分布或者总体分布状况未知,但样本容量n充分大(n>=30)的情况,我们也可以构造服从标准正态分布的检验统计量Z来进行假设检验。
2022-10-03 17:15:11
4609
原创 【应用统计学】简单随机抽样的区间估计和样本容量的确定
若随机变量X服从正态分布,但是方差未知,那么它抽样分布的样本均值也用类似于正态分布的T分布来进行近似计算。
2022-09-30 17:30:33
5810
原创 【应用统计学】大数定律和中心极限定律
某保险公司多年的统计资料表明,在索赔中被盗索赔户占20%,以X表示在随机抽查的100个索赔户中,因被盗向保险公司索赔的户数。求被盗索赔户不少于14户且不多于30户的概率近似值。
2022-09-18 22:43:53
295
原创 【应用统计学】几种常见的概率分布
某商场经统计发现顾客对某商品的日需求量X服从正态分布,且日平均需求量为40,标准差为10件,求这种商品销售量在30~50件的概率
2022-09-17 22:10:49
2843
原创 【应用统计学】概率的基本概念
贝叶斯公式也称为贝叶斯法则。尽管它是一个数学公式,但其原理毋需数字也可明了。如果你看到一个人总是做一些好事,则那个人多半会是一个好人。这就是说,当你不能准确知悉一个事物的本质时,你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。 用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。
2022-09-14 19:26:54
162
原创 【应用统计学】描述数据分布集中趋势
数据集中趋势是统计学中的其中一种指标之一,集中趋势又称 “数据的中心位置”,它代表了一组数据在一定时间、空间条件下的共同性质和一般水平。其表示方式通常有三种:平均数、众数和中位数
2022-09-11 11:19:46
1062
原创 Python3 DataFrame数据详解
pandas的DataFrame极大地简化了数据分析过程中一些烦琐操作,它是一个表格型的数据结构, 每一列代表一个变量,而每一行则是一条记录。简答地说,DataFrame是共享同一个index 的Series的集合。
2022-05-12 21:11:44
3748
原创 Python3 DataFrame缺失值的处理
一、缺失值的判断在通过Pandas做数据分析时,数据中往往会因为一些原因而出现缺失值NaN (Nota number)o比如前文中的例子,当两个DataFrame对象进行简单运算时,无法匹配的位置会出现缺失值NaN或者None.isnull ( )和notnull ( )方法都可以用于判断数据是否为缺失值( NaN或者None).如果是缺失值,则isnull()返回值为True, notnull()返回值为False.df2Out[170]: A B C D
2022-05-11 22:44:53
2761
原创 Python3 DataFrame数据运算
pandas的DataFrame极大地简化了数据分析过程中一些烦琐操作,它是一个表格型的数据结构, 每一列代表一个变量,而每一行则是一条记录。简答地说,DataFrame是共享同一个index的Series的集合。一、简单运算在分析数据时:不可避免地要对数据进行运算。当对两个数据集进行算术运算时,遇到的核心问题有两个:一是两个数据集之间如何进行匹配进而运算;二是如何处理不匹配的数据。Pandas的Series与DataFrame这两种数据类型比较有特色的部分是index ( DataFrame 还多
2022-05-11 18:27:05
2290
原创 Python3 DataFrame数据排序与排名
pandas的DataFrame极大地简化了数据分析过程中一些烦琐操作,它是一个表格型的数据结构, 每一列代表一个变量,而每一行则是一条记录。简答地说,DataFrame是共享同一个index 的Series的集合。DataFrame数据的排序分为三类:1、对索引排序sort_index();2、对值进行排序sort_values();3、是对值进行排名rank()。(1)、索引排名 对于索引排序,涉及到对行的索引和对列的索引进行升序或者降序排序函数df.sort_index(axis= , asc
2022-05-11 17:25:19
5437
原创 Python3 Series数据详解
pandas的Series类型的数据由一列数据及与之对应的标签(索引,位于数据的左侧)两部分组成。 Series对象本质上是一个NumPy数组。因此,NumPy的数组处理函数同样适用于Series对 象。每个Series对象实际上都由两个数组组成,具有index和values两大属性。
2022-05-07 16:26:09
4216
原创 Python3 NumPy库之ndarray数组
在Python内置环境 中,直接存储数值的数组(array)对象只存在一维结构,无法支持多维结构,也没有相关数组运算函数,这些使得Python在数值运算上有诸多不便之处。为了弥补这些不足,第三 方函数库NumPy被整合开发出来。NumPy的核心功能是高维数组,NumPy 库中的ndarray (N-dimensional array object) 对象支持多维数组,数组类型的对象本身具备大小固定、数组内元素的数据类型相同等特性。NumPy也提供了大量数值运算函数,能够直接有效地进行向量、矩阵运算。
2022-05-06 12:05:09
679
原创 Python3 集合
集合(set)是一个无序的不重复元素序列。创建集合的语法是以大括号包住集合元素,或将集合元素以列表的形式传入内置函数set()。In [33]: Winners = {'Company A','Company B'}In [34]: type(Winners)Out [34]: setIn [35]: Losers = set(['Company C ' , ' Company D '])In [36]: type(Losers)Out [36]: set集合中的元素没有顺序关系,故以W
2022-05-04 15:46:32
321
原创 Python3 字典
Python中的字典(dict)类似于JAVA的Map,是一种“映射(Mapping)”的数据结构,。字典(dict)与序列是截然不同的概念,其没有从左到右这种顺序关系,所以也不使用位置偏移量来当 作索引。字典储存是“键:值”配对("Key: Value" Pair)这样的映射关系,或者说是键 (Key)与值(Value)的对照表;透过键便可以查找相对应的值。 创建字典使用大括号{},大括号中包含一对一对的“键:值”,存取时在方括号[]中 填入键,便可关联到对应的值。In [31]: dl = {'S
2022-05-04 14:44:53
730
原创 Python3 元组
Python3中的元组(Tuple)也是一种序列类型的数据,元组跟列表都能存储任何类型的数据,但是列表中的元素是可以变的,可以增加、删除和更改列表中的元素,而一个元组一旦创建,就 无法增加、删除和更改元组内的元素。在元素不可变这一特性上,元组跟字符串很像,然而字符串中的元素类型都只能是字符型,字符串不能存储字符型以外的数据。概括起来,元组具有可以存储不同类型的数据和元组内的元素是不可变的这两大特点。 元组的创建通过圆括号()来实现。M = ('Market', 3.0, [10, 20, 30])
2022-05-04 11:26:54
383
原创 Python3 列表
序列是 Python 中最基本的数据结构。序列中的每个值都有对应的位置值,称之为索引,第一个索引是 0,第二个索引是 1,依此类推。Python 有 6 个序列的内置类型,但最常见的是列表和元组。列表(List)是一种具备容器功能的类型,其中可以放入任何类型的对象,可视为 Python语言最通用的序列。由于列表也是序列,因此索引的方式同字符串,亦是透过偏移量对列表元素进行访问。创建列表的语法是使用方括号[]包住内含的对象。列表的数据项不需要具有相同的类型。创建一个列表,只要把逗号分隔的不同的数据项使用方
2022-05-03 19:37:29
209
原创 作为Leader一定要学会倾听和批评
有效倾听是成功沟通的一半,作为Leader一定要学会倾听!倾听在我们的工作中有非常多的作用:1、倾听可以使他人感受到被尊重和被欣赏。 只有对方感觉到被尊重,他才会信任你。只有他信任你了,你们才能更有效的进行沟通,才能进行成功的沟通。2、倾听能真实的了解他人,增加沟通的效力。3、倾听可以缓解他人的压力,帮助他人理清思路。 有些时候,你让对方自己讲讲,他就...
2020-04-30 20:28:57
718
1
转载 Kotlin 类型体系和基本操作符
本文整理自Chiclaim的博客:https://chiclaim.blog.csdn.net/article/details/85575213https://chiclaim.blog.csdn.net/article/details/88624808一、 原始数据类型我们知道,在 Java 中的数据类型分基本数据类型和基本数据类型对应的包装类型。如 Java 中的整型 int ...
2020-04-17 21:03:15
468
原创 Kotlin函数篇
本文整理自:https://chiclaim.blog.csdn.net/article/details/88624808一、Kotlin 函数的基本定义我们先来定义一个基本的函数:fun max(a: Int, b: Int): Int { return if (a > b) a else b}解释一下fun 关键字用来定义一个函数 fun 关键字后面是...
2020-04-16 20:32:20
404
原创 Kotlin的when、if 和循环语句
本文整理自:https://chiclaim.blog.csdn.net/article/details/88624808一. when语句在 Java 中有 switch 语句,在 Kotlin 中使用 when 来代替 switch1) when 的基本语法when(parameter){ branch1 -> logic branch2 -> l...
2020-04-13 19:54:08
2083
原创 Kotlin集合简介
本文整理自:https://chiclaim.blog.csdn.net/article/details/85575213Kotlin 中的集合底层也是使用 Java 集合框架那一套。在上层又封装了一层 可变集合 和 不可变集合 接口。下面是 Kotlin 封装的可变集合和不可变集合接口:接口 是否可变 所在文件Li...
2020-04-13 13:53:56
655
原创 Kotlin之lambda表达式
本文整理自:https://chiclaim.blog.csdn.net/article/details/85575213一、什么是 lambda 表达式我们先从 lambda 最基本的语法开始,引用一段 Kotlin in Action 中对 lambda 的定义:总的来说,主要有 3 点:1、lambda 总是放在一个花括号里 ({})2、箭头左边是 lambda 参数 ...
2020-04-10 19:02:40
551
原创 Java 泛型的不变性 (invariance)、协变性 (covariance)、逆变性 (contravariance)
本文整理自:https://chiclaim.blog.csdn.net/article/details/85575213我们先定义三个类:Plate、Food、Fruit//定义一个`盘子`类public class Plate<T> { private T item; public Plate(T t) { item = t; ...
2020-04-09 20:24:05
727
原创 ThreadPoolExecutor各参数之意义
Java 为我们提供了操作线程池的API: ThreadPoolExecutor ,该类实现了 ExecutorService 接口JDK 中相关的线程池的类都实现了该接口。创建一个线程池可以通过 ThreadPoolExecutor 类来实现:ThreadPoolExecutor executor= new ThreadPoolExecutor(int corePoolSize,in...
2020-04-07 17:03:13
454
原创 安卓手机抓取崩溃日志的三种方式
其实安卓手机抓取崩溃日志的三种方式:1、adb logcat>1.log然后在1.log中搜索关键字fatal或者其他关键字。这是是一种常用的方式。但是有时抓不到,这时请尝试第二种和第三种方式。2、adb bugreport至于如何使用自己百度3、adb shell dumpsys dropbox --print >>1.log有些时候,我用第一种方式抓不到崩溃日...
2020-04-03 15:10:19
7361
原创 如何制作git镜像仓库
做一个git镜像仓库很简单。进入一个放仓库的文件夹,然后克隆它的远程Urlgit clone --mirror Url比如要把ssh://jenkins@172.18.88.169:29418/test.git 做成镜像命令如下:git clone --mirror ssh://jenkins@172.18.88.169:29418/test.git这样就有git镜像仓库...
2019-07-01 17:49:44
2929
原创 安卓Alarm闹钟唤醒耗电问题的排查
一、故事背景当我们的安卓APP进行厂商预装时,对方往往对APP后台耗电有严格的要求。因此、他们对Alarm唤醒频率有严格要求。当厂商反馈我们APP的Alarm唤醒频率太高而没有给出详细信息时,我们往往只有硬着头皮去排查自己代码中Alarm的使用。不幸的是有时Alarm唤醒频率是第三方SDK造成的,我们自己代码的Alarm并没有问题,排查自己的代码并实际作用的。本文分享了实际项目中一...
2019-04-28 17:34:58
1816
转载 谈 Page Rank – Google 的民主表决式网页排名技术
原文:http://www.kuqin.com/searchengine/20071204/2799.html大家可能听说过,Google 革命性的发明是它名为 “Page Rank” 的网页排名算法,这项技术彻底解决了搜索结果排序的问题。其实最先试图给互联网上的众多网站排序的并不是 Google。Yahoo! 公司最初第一个用目录分类的方式让用户通过互联网检索信息,但由于当时计算机容量和速度...
2019-04-16 13:51:32
416
转载 结巴分词--基于前缀词典及动态规划实现分词
原文一 、简介jieba分词主要是基于统计词典,构造一个前缀词典;然后利用前缀词典对输入句子进行切分,得到所有的切分可能,根据切分位置,构造一个有向无环图;通过动态规划算法,计算得到最大概率路径,也就得到了最终的切分形式。二、 实例讲解以“去北京大学玩”为例,作为待分词的输入文本。离线统计的词典形式如下,每一行有三列,第一列是词,第二列是词频,第三列是词性。...北京大...
2019-03-01 22:43:48
2112
原创 隐马尔可夫模型(HMM)详解
阅读原文隐马尔可夫模型(Hidden Markov model, HMM)是一种结构最简单的动态贝叶斯网的生成模型,它也是一种著名的有向图模型。它是典型的自然语言中处理标注问题的统计机器学模型,本文将重点介绍这种经典的机器学习模型。一、引言 假设有三个不同的骰子(6面、4面、8面),每次先从三个骰子里面选择一个,每个骰子选中的概率为1/3,如下图所示,重复上述过程,得到一串数...
2019-02-21 21:00:40
66783
4
转载 Android PorterDuffXfermode简介
本文转载自:https://www.cnblogs.com/libertycode/p/6290497.html一、XfermodeXfermode国外有大神称之为过渡模式,这种翻译比较贴切但恐怕不易理解,大家也可以直接称之为图像混合模式,因为所谓的“过渡”其实就是图像混合的一种,这个方法跟setColorFilter蛮相似的。查看API文档发现Xfermode有三个子类:AvoidXfe...
2018-09-21 11:47:10
1390
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人