自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 资源 (7)
  • 收藏
  • 关注

原创 数据的探索性分析

一 异常值的分析1. 简单统计量分析:极差,最大值,最小值2. 3σ原则如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。如果数据不服从正态分布,也可以用标准差作为σ来进行倍数描述3. 箱型图分析在箱型图中,异常值被定义为小于QL-1.5IQR或大于QU+1.5IQR的值QL:下四分位数,全部观察值中有四分之一的数据取值比它小QU:上四分位数,全部观察值中有四分之一的数据取值比它大IQR:是上四分位数和下四分位数之差,其间包含了全部观察值的一半

2020-11-01 17:51:14 31 1

原创 Categorical类型

一 介绍在数据中,一个列有可能会包含很多重复值,这时会对重复值进行分类。往往在使用过程中会通过unique、value_counts等函数对重复值进行唯一性的提取和重复个数的统计。而还有一类数据类型可以帮助统计对应的值和表示的键。这类数据在系统可以称为维度表,维度表包含了不同值,并将主要观测存储为引用维度的整数键。可以通过如下例子进行展示,在例子代码中,这种按照整数展现的方式被称为分类或者字典编码展现。不同值的数组可以被称为数据的类别、字典或者层级。import numpy as npimport

2020-06-27 14:21:52 320

原创 Python的文件读取与写入

访问数据往往是使用各种分析工具的第一步,数据文件与数据格式常常有很多种,通过python对数据文件的访问包括对文件的读取和写入,主要总结数据形式包括常用的txt,csv,json格式,Excel格式。Python的文件读取与写入1 读写txt文本1.1 读取txt文件1.2 写入txt2 读写csv文件2.1 读取csv文件2.2 写入csv3 读写json格式数据3.1 读取字符串3.2 转换为字符串4 读写Excel数据4.1 读取excel4.2 写入Excel1 读写txt文本1.1 读取t

2020-05-30 20:41:12 161

原创 指针的总结

从指针的基本概念可以理解,在计算机中,数据是存储在计算机的存储单元中,每个存储单元都有一个编号,指针就是对应着存储单元的编号,根据指针就可以找到也就是数据存储的地址。1 指针的类型指针的类型是指针本身所具有的类型,一般去掉指针变量名,就是指针的类型。int*p;//指针的类型是int*char*p;//指针的类型是char*int(*p)[3];//指针的类型是int(*)[3]...

2020-04-30 19:41:00 84

原创 Python时间数据类型

目录1 datetime基本知识点1.1 存储精细度1.2 计算时间差1.3 加减求另一个时间2 日期与字符串的转换2.1 时间类型转为字符串2.2 字符串转为时间数据类型时间类型数据在生活中非常常见,经济、金融、物理等方面都会使用到,在观测数据过程中,对于时间序列数据常常使用的有三种:时间戳 :具体的时刻时间间隔 :由开始和结束的时间戳表示固定的时间区间 :比如说2020年一整年Pyt...

2020-03-31 20:57:06 115

原创 Endnote使用中的问题总结

使用Endnote过程中遇到两个问题:如何批量录入,加载项每次需打开重新加载,针对以上两个问题,进行学习中的总结一 批量录入Endnote在使用谷歌学术引用文献时,录入的参考文献都是一条一条的,如果有大量的文献需要导入,就要求重复通过Endnote导入,非常不方便。通过实际的实践,有两种方法。1.1 简单批量录入的方法适用性: 适合文献量10个左右,方法比较简单方法: 将谷歌学术导出的...

2020-02-16 11:28:49 226

原创 Pandas整数索引

在pandas上使用整数索引容易产生歧义,因为它和在列表、元组内构建数据结构进行索引有一点不同。1.整数索引如下代码ser = pd.Series(np.arange(3.))ser[-1]返回的结果为:Traceback (most recent call last): File "G:\soft\anaconda\install\lib\site-packages\IPyth...

2020-01-31 19:02:14 202

原创 基于R lavaan 进行SEM分析总结

前期对SEM模型的构建以及问卷题项设计工作已经完成,本部分从问卷数据收集以及处理完成后开始分析。一理论部分1.1验证性因子分析验证性因子分析CFA的主要目的在于进行效度验证,它与探索性因子分析有所不同。探索性因子分析主要是为了找出影响观测变量的因子个数,以及各个因子和各个观测变量之间的相关程度,推断模型的内部结果。而验证性因子分析的主要是决定事前定义因子的模型拟合实际数据的能力,以试图检验...

2020-01-31 16:39:54 4509 2

原创 smartPLS入门操作学习

最近在使用使用smartPLS软件进行实证分析,奈何在网上有关smartPLS的入门综合学习的帖子实在是少之又少,学习不系统,一路走来,心中不免感慨良多,针对自己在学习中的过程,做一个简单的入门总结。1. SmartPLS介绍1.1 smartPLS是什么smartPLS是一款用于偏最小二乘法进行结构方程建模的统计分析软件,非常灵活好用,一般应用在管理学、组织行为学以及信息系统等领域。...

2019-12-24 22:17:24 4801 1

原创 Netlogo仿真初步学习总结

Netlogo初步学习总结一 Net logo理解及获得渠道二 软件的初步了解1.初始界面2.界面频繁使用的区域三 一个仿真如何进行(前情概要)1. 仿真世界的构成2. 仿真如何推进四 实战学习—牛吃草的仿真1.项目描述2.主要代码3.界面五 我遇到的问题1 符号的问题2.go按钮的执行与tick一 Net logo理解及获得渠道1.是什么:Net logo是一个系统仿真软件,利用该软件,可以...

2019-11-11 18:37:50 5257 6

原创 梳理2 伪随机数

实际的代码中往往会使用到随机数,random函数往往具有生成随机数的功能,另外numpy.random模块在python内建的random模块基础上,可以高效生成不同概率分布下的完整样本值数组。所谓伪随机数,是由具有确定性行为的算法根据随机数生成器中的随机数种子生成的样本生成的几个常用的分布函数列表如下:1. 随机种子:seed函数1.1 随机数种子的理解理解:由上文对伪随机数的理解...

2019-11-03 18:02:17 61

原创 梳理1 Python内建数据结构

1.1元组【理解】:固定长度,不可变对象序列,逗号分隔,圆括号【元组生成】赋值方式:Tup = 2,3,4Tuple函数转化:tup = tuple([2,3,4,5])【元组的操作】元组内部可变对象的修改:+连接元组生成更长的元组元组的拆包(赋值变量进行拆包):普通拆包,嵌套拆包,*rest位置拆包【元组的方法】count方法: a.count(2)1.2列表**【理解】...

2019-10-27 15:24:55 46

原创 安装endnote和使用endnote的简单几步

一 为什么使用endnote在写论文中,不免会用到文献引用的问题。如果没有接触过endnote,粗糙的方法可以使用word里面自带的引用方式:引用——插入如下图所示,一开始觉得还挺只能,但是有很多缺点就会暴露出来。比如说如果文献特别多不同期刊切换时格式不好统一修改;后期的文献不利于管理;尾注内容还得自己添加等等。如果这个时候你已经开始烦恼这些事情,可以考虑使用endnote。至于endnote对...

2019-07-30 18:42:40 223

原创 函数式编程中常用的函数(总结)

一 函数式编程理解** 1.函数式编程的含义:**函数式编程是一种编程的基本风格,就是构建程序的结构和元素的方式。函数式编程将计算过程看做是数学函数,也就是可以使用表达式编程。在函数的代码中,函数的返回值只以来传入函数的参数,因此使用相同的参数调用2次就会得到相同的结果。如果说这段话很难理解,我觉得可以这么想,函数式编程就是一种函数,或者是一种结构,在该结构中,将函数和函数的参数都作为参...

2019-07-30 17:23:08 81

原创 邮件合并功能:使用Excel批量生成word内容

一 功能简要介绍1.使用背景:生活中在分发成绩单、请帖、各种证书时,往往要根据excel里面的数据根据固定的word格式填入固定的内容,然后打印出来分发给对应的人,比如说要对公司内的部分员工进行表彰,员工名单有...

2019-06-30 23:12:53 8280

原创 多个Excel表合并成一个Excel表

一 使用说明问题描述: 往往在进行数据统计分析前,会遇到数据分在不同的表里的情况,这时候就需要将多个表的数据先放到一个表的数据里面,然后再进行分析。比如班级需要汇总每个人的信息,几十人每个人都发了个人的信息表,一个一个表的数据打开粘贴,不仅麻烦,而且还可能出错,这样的做法是最简单粗暴但是很浪费时间的。当然,如果是大批量的数据使用python或者其他语言汇总到一个表里也是可行的,如果是小批量的几百...

2019-06-30 17:38:04 28729 2

原创 求排名第n的薪水(学习中)

一 题目编写一个 SQL 查询,获取 Employee 表中第 n 高的薪水(Salary)。表的内容是如下:±—±-------+| Id | Salary |±—±-------+| 1 | 100 || 2 | 200 || 3 | 300 |±—±-------+要去从表里面筛选出第n高的薪水,如果表里的内容为空,则返回空值null,例如,当n=...

2019-06-24 21:34:53 48

原创 一种使用Python计算可达矩阵的简单方法

在进行编码前要简单介绍几个知识点:有向图,邻接矩阵,可达矩阵有向图、邻接矩阵、可达矩阵有向图现实中常常会表示从一个地点到另一个地点的路径,这样的带有从起点到终点的路线表示可以用有向图表示。如下图所示:在该图中,可以看成由地点F1到F2,以及F1到F3,F3到F2的路径。这种有向图也表示两个因素的相互影响关系,再结合上面的有向图,我们可以理解为因素F1对因素F2有影响,对F3也有影响,因...

2019-03-31 18:08:42 3565 6

原创 pandas读取csv文件

1.导入的包:import pandas as pdimport numpy as np2.读取文件我主要使用的是CSV文件格式,内容为如下:将数据加入到指定路径中,然后进行读文件:def read_csv(path): f = open(path, encoding='utf-8') read_data = pd.read_csv(f) # print(r...

2019-03-04 15:49:56 102

原创 MySql提取重复邮件

题目大致是这样的:给了一张Person表,表的字段有Id和邮件名称Email,然后从表里面找出重复的邮件。原表是:±—±--------+| Id | Email |±—±--------+| 1 | a@b.com || 2 | c@d.com || 3 | a@b.com |±—±--------+通过Mysql查询语句可以的到的重复表结果为:±--------...

2019-02-07 11:50:58 87

原创 数据库:筛选出Employee工资高于Manager工资的人员(Mysql)

原题目是这样的:±—±------±-------±----------+| Id | Name | Salary | ManagerId |±—±------±-------±----------+| 1 | Joe | 70000 | 3 || 2 | Henry | 80000 | 4 || 3 | Sam | 60000 ...

2019-02-02 18:53:07 9425 5

原创 数据库表的连接

数据库中往往涉及到两个数据表的连接进行查询,查询的过程中有很多的注意技巧。首先梳理基本知识,然后进行分析不同的连接。一 笛卡尔积笛卡尔积常常在数学中用于两个集合的运算,集合X和集合Y的笛卡尔积运算表示为:X×Y,当两个集合进行笛卡尔积运算时,运算的结果为两个集合元素所有可能的组合。例如集合A={a, b},集合B={0, 1, 2},则两个集合的笛卡尔积为{(a, 0), (a, 1), (...

2019-01-20 13:35:13 156

原创 Mathematica画图的问题

由于写论文,使用了mathematica软件,从入门到写作,着实费了很多功夫,总结下自己遇到的问题,以后便于查看。一 首先是书写函数问题函数和MATLAB不一样,使用方括号"[]",而不是圆括号。在进行求指数问题时,我总是会写成Exp()的形式,结果解出来的结果却还有Exp,我当时很纳闷,才明白过来。这点让我半天的代码白费了,这个和画图关系不大,可以暂时略过。二 画图多个图怎么放在...

2018-12-16 16:24:46 5966 3

原创 逻辑回归梳理

基本思路看来很多逻辑回归的教程,很难理解,自己想梳理一下知识点。逻辑回归虽然带有“回归”的字样,实际上是一种分类算法,但是使用了回归的思想来解决分类问题。既然是分类,也就是使得X的取值不同,Y取值0或者是1。但是逻辑回归如何通过X的取值来判断Y是0还是1,具体分类的思路可以这么理解:我们重新先了解设置一个函数,使得:这个函数就叫做Sigmoid函数,该函数的图像如下:在图中sigmo...

2018-10-21 15:31:57 102

原创 使用selenium爬取餐厅信息

使用selenium爬取餐厅信息一 工具及平台介绍二 代码主要部分解析1.使用的库:2.根据url获取到网页的函数3.解析获取网页的内容并存到csv文件中三 网页完整代码结果一 工具及平台介绍使用python语言爬取使用BeautifulSoup解析爬取餐厅信息——大众点评某个地区的餐厅列表导入到CSV文件夹下使用谷歌浏览器二 代码主要部分解析1.使用的库:from sele...

2018-10-21 10:39:22 174

原创 爬取网页中文乱码的问题

基本知识计算机只能处理数字,所以将一个数字对应一个符号,所以不同的数字对应不同符号的方式有不同为不同编码方式。ASCII码 :英文字符和二进制数字之间的关系。一个符号为一个字节(byte),一个字节是8位(bit),所以总体共可以组合为2的8次方也就是256种状态。对于英文字符是足够表示了,然而对于汉字和其他国家256个符号时不够的。gb2312 : 中文字符和二进制数字之间的对应关系。...

2018-10-17 15:53:33 1679

原创 爬取虎扑博客内容的Python代码

爬取虎扑博客内容的Python代码爬取目标使用的工具具体步骤1.导入库并连接数据库2.获取前10页的URL3.获取网页4.爬取内容并导入到MongoDB数据库总代码运行成功截图爬取目标主要爬取的为虎扑网站博客前十页的标题、作者、发布时间、浏览量、回复数等信息,结果如下图所示:使用的工具数据库: MongoDB数据库语言: python解析方式: BeautifulSoup具体步骤...

2018-10-15 17:58:32 177

原创 selenium打开谷歌浏览器

selenium是一个用于web应用程序测试的工具,它非常实用,selenium测试直接运行在浏览器中,可以模拟单击、输入、打开、验证等用户的操作我是在python环境中使用selenium的,在进行操作的时候主要有以下几步:1.安装selenium安装包如果不是Anaconda环境,可以使用Windows+r的方式打开命令行,输入cmd打开窗口然后输入代码:pip install s...

2018-10-04 17:42:01 741

原创 安装anaconda的问题

我感觉每一个说好用的软件实际安装起来都没有那么顺心过,对于我来说,安装不下三次的软件都不是好软件。比如这个软件,痛苦的过程。于是种种在百度,尝试了各种方法后,最终,对我受益最大的是以下的网址,强烈安利: 点此进入链接 因为者篇文章所说的错误我都遇到了 不过最后所有似乎都完美解决的时候,我自己又遇到了新问题: 打开后一直处于初始化状态,然后闪退,这种操作着实不能忍,然后又是种种百度,各种问题...

2018-09-17 16:50:10 1024

原创 python中的counter类

调用Counter 类使用的方法为:from collection import CounterCounter用于计数,调用它会返回一个key为列表的值,value为该值的具体个数的对象我们首先创建一个一维数组:x=np.random.random_integers(1,10,100)然后结果是如下所示: 接下来我们使用Counter()进行计数:coun...

2018-09-09 21:38:13 5765

原创 numerate()函数的学习

记录自己学习numerate的学习笔记在Python中,enumerate() 函数可以生成一个开便利的数据对象,这些数据对象可以是列表,元组或者字符串,对于生成的数据对象不仅有数据内容,还自动带有一个索引序列,我们可以看一些一个例子。 首先我们可以生成一个数组:data=np.arange(0,9)data在jupyter notebook中可以看到这时的结果应该是 ...

2018-09-06 17:13:39 589

原创 python中assert的学习

在Python中,遇到了有关assert的使用,对于assert在敲代码的时候可以省略,但是当遇到错误时,它可以起到一种报错时显示错误的作用,真是万能的程序员。 我们可以写一个简单的函数来测试assert的语法可以如下写:def test(x,y): assert x==3, "x can not be less than 3"如果调用test函数如下会有什么结果呢?把x=3试...

2018-08-09 15:15:52 92

原创 Python安装sklearn的问题

平时喜欢接触新的事物,电脑上安装了各种软件,学习很多东西,但是久而久之,使用过后就忘记了如何去安装以及最初使用的步骤,每次百度和求教浪费很多时间,写下来可最主要的是自己记住,其次,就是分享自己苦逼写代码遇到的各种错误历程,不会让后来人犯同样的错误。 好吧,言归正传。 最近因为在学习机器学习的初级入门,由于课程的需要,在命令行里使用了pip install sklearn的方法进行安装sklea...

2018-08-08 12:22:05 16161

lavaan教程.pdf

使用R语言进行SEM分析,对lavaan包的使用进行教程系统性学习的文档。对lavaan从安装教程,如何建模,到系统的结果分析,指标讲解都有详细的介绍

2020-01-31

netlogo中文手册.pdf

有关Netlogo的入门学习教程,可以了解Netlogo软件的基本知识并根据一个实际的仿真程序进行实际的实践学习

2019-11-11

EndnoteX9文献编辑软件部分

通过EndNote可进行文献批量下载和管理、写作论文时添加索引、分析某篇文献的引文索引、分析某领域或者学术课题的经典文献地位等。由于软件有点大,这部分是软件部分,需要和破解部分一起使用,破解部分免费下载,否则只能适用30天。仅个人使用,不可用于商业用途。

2019-01-05

EndnoteX9文献编辑软件破解部分

通过EndNote可进行文献批量下载和管理、写作论文时添加索引、分析某篇文献的引文索引、分析某领域或者学术课题的经典文献地位等。由于软件过大,分成两部分上传,这是第二部分,是软件破解的部分,需要和EndnoteX9文献编辑软件部分配合使用,所以先在资源库中下载第一部分,否则不能正常使用,本部分可以免费下载。

2019-01-05

clementine数据挖掘方法与应用配套数据

为薛薇老师出版的《clementine数据挖掘方法与应用》的配套教材数据材料,包括相关章节的示例数据文件和可执行的数据流文件,数据文件为.sav,.xls,.txt格式,可分别通过Windows操作系统环境中的Spss,Excel和写字板程序打开。数据流文件为.str格式,可通过Clementine 11及以上版本读取。

2018-11-21

网络团购下的定价与决策

有关团购的论文,团购会涉及到团购持续时间的决策和团购价格的决策,文章给出了答案

2018-11-21

basemap地图绘制工具包

适用于windows64位,进行地理信息可视化,可以直观的显示地理信息

2018-08-08

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除