- 博客(49)
- 资源 (9)
- 收藏
- 关注
原创 「数据科学」清洗数据,使用Python语言处理数据集中的重复值
数据集中的重复值,产生的原因有很多,如果不进行处理的话,会对我们的后续分析过程,产生很大的影响。比如说,在统计汇总数据的时候,重复数据就会导致数据总数增多。要是重复数据多的话,会影响我们对数据的判断。
2024-09-19 23:08:59 405
原创 「数据科学」清洗数据,真实数据集中缺失值的查看与处理
在数据科学的工作过程中,我们通过查看数据的基本要素和元数据之后,需要根据查看的结果,考虑是否需要清洗数据。缺失值的查看与处理,就是清洗数据的一部分。如果我们的数据集中,存在缺失值的话,就需要考虑如何处理缺失值。
2024-09-18 18:11:52 504
原创 「数据科学」转换数据,数据存储空间和类型转换
在数据科学过程中,我们在分析和处理数据的时候,经常会遇到各式各样,大大小小的数据集。在国家数字中国,数字建设大的战略背景下,我们的数据量越来越大,数据集,也从以前的小数据集,摇身一变,成为目前主流的大数据集。对于小数据集来说,在处理和分析数据的时候,我们并不需要考虑数据集占用的内存空间。但是对于大数据集来说,我们要想让数据的时效性更高一些的话,就需要考虑数据集中,每个列代表的变量的数据类型。合适的数据类型,可以节省我们的数据在内存和硬盘中,持久化的存储空间,减少我们的硬件投入成本。
2024-09-18 18:10:46 593
原创 「数据科学」数据科学过程,查看数据基本要素和元数据
我们在拿到需要分析和处理的数据集之后,先要把数据导入到Python编程环境中,存储成dataframe,或者是series格式的变量。然后需要查看数据的基本元素,比如说行和列,索引和索引标签,数据值等等。这样我们才能对数据集,有一个清晰和直观的认识。我们还需要借助元数据,它是描述数据的数据,主要是描述数据属性,来查看数据集的数据维度,数据类型,大小以及数据字典等。
2024-09-12 15:59:02 310
原创 「数据科学」Seaborn图形可视化,折线图和散点图的波动区间
在进行描述性数据分析的时候,需要报告数据变量的最大值,最小值,均值和标准差。这些统计数据,是帮助我们查看变量的分布,波动和趋势的重要统计值。一般来说,在科学研究中,需要报告数据的具体数值。而在现实中,我们大多数是对公司业务数据进行分析和处理,商业环境中的数据占绝大多数。这个时候,我们使用可视化技术,来展示这些变量的描述性统计值,能够让各类人员,有个直观的感受,更容易让业务人员和管理人员,这些非专业人士,接受我们的数据分析结论。
2024-09-12 10:53:58 281
原创 「数据科学」Seaborn图形可视化,概要介绍及实践
Seaborn能够帮助你,更好的探索和理解你的数据。其绘图功能,包含对整个数据集的dataframe数据集和array数组进行操作。并且在内部,执行必要的语义映射和统计聚合,以生成信息丰富的各式各样的图形。Seaborn是面向数据集的,声明性的API,使你能够关注图形的不同元素,意味着什么,而不是如何绘制它们的细节。正因为Seaborn的这些优点,使用Seaborn绘制图形,相对于matplotlib基础库来说,更加高效,便捷,简易,对专业和非专业数据分析人员,都非常友好。
2024-09-11 10:49:58 561
原创 「数据科学」Pandas图形可视化,基本绘图:条形图及实践
在图形可视化过程中,条形图既可以表示数据的大小趋势,还可以表示数据的分布情况。条形图中,代表数据点的每一个条形(也可以说是一根柱子,所以也叫做柱图),可以形象的表示数据点的大小,多个条形,可以代表多个数据点,也可以直观的看出来多个数据点的大小情况,以及趋势的情况。
2024-09-10 16:35:02 367
原创 「大数据分析」Pandas图形可视化,基本绘图:折线图及实践
在使用Python语言进行的可视化的过程中,基本上是通过Matplotlib第三方图形可视化库,来实现数据的可视化过程。Pandas的图形可视化,也是基于Matplotlib的底层库来实现的,可以算是Matplotlib库的简化版本。很多时候,我们不一定非要立马做出精美的可视化图形。在我们分析数据和处理数据的过程中,经常需要快速生成图形,以便于我们及时查看数据在图形上是个什么样子,这样才能保证我们的数据分析和处理过程,有一个直观,能看见的参考。
2024-09-09 15:48:39 963
原创 「大数据分析」图形可视化,如何选择大数据可视化图形?
通过图形可视化技术,来向我们的大数据分析项目的利益相关方,传递我们的分析结论报告的关键点。怎样让大数据分析项目的利益相关方,读懂我们的结论报告,知道报告中蕴含的知识内容和有价值的数据分析点,这就需要通过可视化技术,来传达我们的大数据分析结论。连续型数据,是一系列不间断的数据,比如我们每天的订单数据,在一个月的范围内,就是连续的数据集。我们分析处理完成后,需要展示的数据,可以分为四个维度:序列,描述,构成,比较。气泡图的话,只是把散点图,加入了大小的维度,可以展示两个变量,数据点之间关系大小的图形。
2024-09-07 14:00:33 450
原创 「Python数据分析」Pandas进阶,使用groupby分组聚合数据(三)
使用用户自定义函数聚合时的性能,通常比不上使用GroupBy的pandas内置方法。所以,在我们使用用户自定义函数的时候,可以考虑将复杂的操作分解为使用内置方法的操作链。我们先来看一个例子通过kind列进行分组,把分组后的height列,先转换为int整形,最后通过sum进行加总聚合操作。注意,这里是int整形,没有小数部分,所以结果是一个整数值。以上,就是我们关于GroupBy分组聚合数据的所有内容。GroupBy的知识内容,在实际中用处非常大,运用的时候较多。
2024-09-05 20:12:06 398
原创 「Python程序设计」模块式编程:函数
你可以定义一个由自己想要功能的函数,以下是简单的规则:1、函数代码块,以 def 关键词开头,后接函数标识符名称和圆括号 ()。2、任何传入参数和自变量必须放在圆括号中间,圆括号之间可以用于定义参数。3、函数的第一行语句可以选择性地使用文档字符串—用于存放函数说明。4、函数内容以冒号 : 起始,并且缩进。5、return [表达式] 结束函数,选择性地返回一个值给调用方,不带表达式的 return 相当于返回 None。函数定义的结构,如下图所示。
2024-09-05 20:07:05 1154
原创 「Python数据分析」Pandas进阶,使用groupby分组聚合数据(二)
在实际的数据分析过程中,我们把原始数据集,进行分组处理之后,往往需要对分组结果中的,各个小组的数据进行不同的操作。这就需要对我们的分组结果对象,通过循环迭代的方式,访问和操作不同组内部的数据元素。
2024-09-04 19:53:37 454
原创 「Python程序设计」循环控制:for和while循环语句
我们在实际业务,或者是实际问题,进行数据分析处理的过程中,往往需要对数据集进行处理。从程序设计的角度来看,一维数组,代表了同一数据类型的相关数据。二维数组,相当于我们excel中的表格,可以简单理解成,是由一维数组组成的。比如说,我们的表格按行来看的话,从上到下,每一行,就相当于一个一维数组。而无数的行,就构成了一个二维数组的表格。按列从左到右来看,也是一样的。而在python编程语言中,类似于一维数组的数据结构是列表,元组,字典。还有pandas库中的series。
2024-09-04 19:48:30 803
原创 「Python数据分析」Pandas进阶,使用groupby分组聚合数据(一)
在数据分析过程中,groupby语句,起到对原始数据集,进行分组和聚合的作用。我们在进行数据处理的时候,经常需要对不同的数据维度,以及不同的数据切片集合,进行操作和处理。比如说,假设我们有全国人口数据集,而我们分析数据的时候,关注的主要问题是,不同省份之间,人们的平均身高是个什么情况。对于这样的数据分析问题,我们就需要先通过省份列,对数据集进行分组。在分组完成之后,获取每个组的身高列,然后通过计算平均值的聚合函数,对分组后的数据集进行聚合。这样,我们就能够得到,不同省份,人们的平均身高数据。
2024-09-03 21:08:26 789
原创 「Python程序设计」条件控制:if-elif-else语句
这里我们需要注意,if后面紧跟着的变量var1和var2,是通过0和非0来进行判断的,也就是非0的话(这里是var1设置为100),表示true,等于0的话,则是false。我们在进行程序设计的过程中,基本上遵循的过程是,找出变量和常量,通过python编程语言,设置变量和常量,以及考虑是否需要赋予初始值。在日常的程序设计过程中,条件控制是一个经常使用的,用来判断变量和常量是否符合我们计算的需求,是我们对程序进行自由掌控的基础。第二个if语句,判断是false,直接跳出过程,执行过程外的语句。
2024-09-03 21:01:28 724
原创 「Python数据分析」Pandas进阶,使用merge()函数合并数据
以上4种连接方式,是数据连接中的主要连接方式,也是merge函数中的主要连接方法。在实际数据分析和处理过程中,左连接和右连接运用场景更多一些,希望大家对照图示,参照代码,灵活熟练掌握这4种常用的数据连接方法。
2024-09-02 20:47:24 1080
原创 「Python程序设计」基本数据类型:字典
字典的每个键值 key=>value 对,用冒号 : 分割,每个对之间用逗号(,)分割,整个字典包括在花括号 {} 中 ,格式如下所示:这里需要注意,dict 作为 Python 的关键字和内置函数,变量名不建议命名为 dict,否则会产生冲突,导致出错。键key必须是唯一的,也就是说,字典中的所有键,不能有重复值出现,但值则不必。值可以取任何数据类型,但键必须是不可变的,如字符串,数字。也就是说,你的键如果是用字符串表示,那么所有字典中的键key,都要是字符串类型。
2024-09-02 20:33:08 409
原创 「Python数据分析」Pandas进阶,利用concat()函数连接数据(二)
我们接下来看利用concat()函数连接数据的第二部分内容,先来看怎么使用concat()函数把series和dataframe连接在一起。
2024-08-29 21:24:37 612
原创 「Python程序设计」基本数据类型:列表(数组)
列表中的数据元素的索引,和数组基本一致,第一个元素的索引,或者是下标为0,第二个元素是1,第三个是2,依此类推。但是,列表和数组,也有不一致的地方,也就是列表可以通过负数,从后向前,或者是从右到左进行选择。列表是最常用的 Python 数据类型,它可以作为一个方括号内的逗号分隔值出现。列表的数据项不需要具有相同的类型,这点和C语言的结构体(struct)类似。创建一个列表,只要把逗号分隔的不同的数据项使用方括号括起来即可。如下图所示。
2024-08-29 21:17:39 518
原创 「Python数据分析」Pandas进阶,利用concat()函数连接数据(一)
在我们迈向中高级出局数据分析的过程中,数据的合并和连接,是一个非常重要的技能。现实中,分散在各种数据库,各种数据表格,各种数据存储设备当中的,各式各样的数据,是我们进行数据分析的基础,也是数据获取部分,需要对数据进行整合的根基。在今天的文章中,我们先来看,如何使用concat()函数,对多个数据集进行连接,以及合并操作。
2024-08-25 19:32:15 299
原创 「Python程序设计」基本数据类型:字符串
在python的程序设计过程中,字符串是需要经常处理的变量类型。字符串在程序中的存储方式,类似于一维数组,每个字符占据数组中的一个单元格。字符串可以存储字符类型的变量,即使是数字类型,也可以通过字符串来进行存储。
2024-08-25 10:37:34 360
原创 「Python数据分析」Pandas基础,数据选择重量级:query()方法
query方法的语句,要比python的查询语句,更加简单易懂。对于非计算机专业的数据分析人员来说,可以用query方法,替代布尔索引,还有逻辑的与或非操作,以及in和not in操作。在执行速度方面,100,000行数据是query方法和python查询语句的分界线。小于100,000行数据的情况下,python查询语句稍微快一些。大于100,000行数据的情况下,query方法要优于python查询语句。
2024-08-24 15:21:40 258
原创 「Python数据分析」Pandas基础,筛选数据利器:布尔索引
通过布尔索引选择数据,可以通过条件,或者是区间,来选择我们所需的数据集。在实际的数据分析过程当中,有很多情况,是需要通过布尔索引,来判断选择所需要分析的子数据集。掌握好布尔索引操作,是对数据切片选择的一个很好的补充。布尔索引的与或非操作,比较抽象,建议大家通过对照实际筛选出来的数据集,进行联系。
2024-08-23 16:28:37 461
原创 「Python程序设计」基础语法:数字和字符串类型
数字和字符串类型,都是python程序设计中的重要类型。特别是字符串的索引和切片操作,一定要通过多写代码,多练习,来熟练掌握。
2024-08-23 10:08:44 258
原创 「Python程序设计」基础语法:程序的注释、行与缩进
在python程序设计的过程中,关键和必要的地方,加入注释,能够提高程序的可读性,以及程序的可维护性。也能让关键的业务逻辑规则,或者是算法的实现过程,有一个清晰的记录。养成对python程序进行注释的习惯,是我们必备的一项编程能力。python程序的代码行,是构成python程序,以及代码块的核心,也是可以通过python解释器,独立运行的单元。在python代码块中,需要同时执行的代码行,必须进行相同空格的缩进。缩进可以表示可执行代码块的执行范围,也就是我们所说的全局和局部的程序生命周期。
2024-08-22 15:14:16 274
原创 「Python数据分析」Pandas基础,精确掌控数据:循环和迭代
循环和迭代,是对数据集操作的重要方式,可以使我们灵活的处理数据集。我们对数据集的绝大部分处理,都需要借助循环和迭代来实现。所以,掌握好循环和迭代的语句和函数,是后续处理复杂数据集的基础,也是数据分析的重点。
2024-08-22 11:11:29 365
原创 「Python数据分析」Pandas基础,用iloc函数按行列位置选择数据
前面我们学过,使用loc函数,通过数据标签,也就是行标签和列标签来选择数据。行和列的标签,是在数据获取,或者是生成的时候,就已经定义好的。行数据标签,也就是唯一标识数据,不重复的一列,相当于数据库中的主键字段。列数据标签,就是每一列的名称,一般放在开头一行显示。现在我们再来学习,通过iloc函数,使用行和列的位置,来选择数据。这里的行和列的位置,是pandas对数据的一个编码,从头到尾,按照顺序排列的一个编码。不过要注意的是,行和列的编码,是从0开始的,也就是第一行,或者是第一列,编码顺序是0。
2024-08-21 14:30:43 246
原创 「Python程序设计」基础语法:标识符和保留字
在python程序设计过程中,标识符和保留字,都是我们进行程序设计的基础。标识符也就是我们程序中的变量和常量。我们的程序设计,就是围绕着变量和常量的处理进行的。保留字是python编程语言,在整个编程结构中,预留的一些名字,这些名字用来识别特定的编程动作。具体来说,就是我们的标识符,在设置和命名的过程当中,不能和python的保留字重名,这点需要特别注意。
2024-08-21 09:26:19 237
原创 「Python数据分析」Pandas基础,按照数据标签访问和操作数据
通过loc函数,可以对字符串类型的数据标签进行选择。我们在数据分析的时候,不管是选择数据,还是修改和删除数据,都需要先对数据进行选择。特别是复杂的处理,需要借助于循环和迭代,对数据集进行循环处理。而我们这里讲的通过数据标签选择数据,就是对后面的数据分析打好坚实的基础,这需要我们多进行练习,熟练掌握运用数据标签对数据进行选择的技术。
2024-08-20 15:00:34 399
原创 「Python数据分析」Pandas基础,通过数据切片访问和操作数据
从以上过程,我们可以看出,掌握了切片方式的话,我们就可以非常灵活的对series和dataframe数据集进行各种组合的选择。大家可以适当修改代码,自己尝试着选择不同组合的数据集,这样可以巩固所学知识点和知识内容。
2024-08-14 11:49:39 255
原创 「Python数据分析」Pandas基础,通过索引选择数据
大家要注意loc和iloc函数的细微差别,loc函数的行和列,是用行和列的名称,字符型string变量来选取。新建日期索引列dates,然后通过np.random.randn函数,生成一个8行4列的数据集,并且把dates作为索引列,列名用columns参数进行设置。df['A'][5]中,从左到右,第一个中括号代表选取A列,第二个中括号,代表选取第A列的第6行单元格的数值。首先,通过中括号[]加列名'A'的方式,在数据集df中,获取A列,复制给s变量。最后,通过时间索引的方式,获取到单元格的具体数值。
2024-08-13 10:22:30 412
原创 「Python数据分析」Pandas基础,DataFrame通过列选择数据
通过Pandas的ExcelWriter函数,导出Excel数据为“output.xlsx”,如下图所示。其中,“output.xlsx”的Sheet1和Sheet2,就是我们数据处理所需的结果。今天,我们先学习数据列的选择。在数据处理和分析过程中,数据选择是非常复杂和重要的步骤。我们掌握好数据选择的各项技术,再加上案例,或者是实践的磨合,是我们迈向中高级数据处理的关键过程。所以,请大家务必要多练习数据选择的技术要点。
2024-08-10 23:28:16 331
原创 「Python数据分析」Pandas基础,数据结构和新增数据
在编程语言中,数据结构是一个重要的概念,我们编写程序,基本上都是通过各种数据结构,来操作变量,实现各种我们需要的功能模块。我们先来看Pandas的数据结构,主要有两种类型:1、Series。
2024-08-09 15:55:17 412
原创 「Python数据分析」Pandas数据处理,导入导出Excel数据文件
最后,假如df1的数据,通过Python程序,处理分析完成之后,我们编写以上代码,就可以把Python中的数据,导出成为我们熟悉的Excel格式文件。我们新建“Python源程序.ipynb”的Python笔记本源程序文件,然后通过Excel程序(WPS和MS office都可以),新建两个Excel文件,分别是“input1.xlsx”和“input2.xlsx”,用来作为导入的Excel源数据使用。这个获取数据的过程,可能是通过手工录入的方式,也可能是通过各种数据库导出数据的方式,等等。
2024-08-07 19:25:03 601
原创 【Python数据分析】vscode配置,插件安装,编码,第三方包安装
安装完Python和Visual Studio Code之后,我们还需要对Visual Studio Code进行配置,安装一些方便使用的扩展插件。还需要学习通过pip指令,安装Python的第三方包。完成这些步骤之后,我们才能开始编写Python程序代码。
2024-08-06 21:26:10 1060
原创 【Python数据分析】Python和Visual Studio Code安装
我们在进行数据分析的时候,首先需要选择用于进行数据分析的开发语言和支撑开发语言的集成开发环境,也就是编写程序的窗口界面。可以用来进行数据分析的开发语言有很多,我个人更倾向于使用Python语言来进行数据分析,编写Python语言的程序开发环境,推荐使用轻量级的Visual Studio Code。后续的教程和案例,都是基于Python语言和Visual Studio Code来进行的,所以我们先来安装这两部分的程序。
2024-08-05 23:09:43 437
原创 RESTFull风格的.NET Core微服务前后端分离架构实现之四(认证授权)
前面我已经完成了一个完整的CRUD操作,并且通过了测试。这就是面向微服务的模块化开发模式,微服务模块之间的耦合性低,内部的内聚性高。其余的所有实际中的业务操作,都可以按照前面实现出来的功能,进行扩展。要实现分布式的微服务架构,需要解决前端用户的认证授权问题。这里的前端用户,不一定是人,也可能是机器或者其他东西。分布式的微服务架构不适宜用session的解决方案来实现认证授权,注意这里我说的是不...
2019-08-27 15:23:57 2391
原创 RESTFull风格的.NET Core微服务前后端分离架构实现之三(测试)
既然是前后端分离的架构,那我这里就在脱离前端的情况下,单独测试后端。通过前端Ajax调用的方式来测试后端,这个就请各位自行下载源代码操作了,原理都是一样的,只是这里更突出前后端分离的模式。测试工具我这里选用的是Postman,本来需要把项目发布,部署到单独的服务器上来进行测试的。我这里就省略这个步骤了,直接在VS里面按个F5,运行项目进行测试。第一,查询接口测试首先测试查询所有User...
2019-08-22 11:25:44 800
原创 RESTFull风格的.NET Core微服务前后端分离架构实现之二(后端实现)
这里需要说明一下,前端实现部分,请参考我的另外一篇文章。基于REST风格的前后端分离的Web服务架构的.NET Framework实现第3讲《前端实现篇》https://blog.csdn.net/leochen0207/article/details/89496203由于新建的项目里面包含静态内容的wwwroot文件夹,这点和Spring Boot的微服务实现方式几乎一致,所以我只是...
2019-08-22 09:11:00 1614
原创 RESTFull风格的.NET Core微服务前后端分离架构实现之一(搭建开发环境)
最近一直在做项目,不停的搞架构、搞设计、搞分析,Java的、.NET的、Python的都有,感觉就是不停的画图,不停的讨论,不停地安排工作,不停的汇报工作。现在总算是有点空闲了,不经意间,在网上搜索了一下,突然发现,Visual Studio现在已经到2019的版本了。没办法,摩尔定律就是这样,只能研究最新版本了。按照惯例,登录官网、下载、安装、更新,打开VS2019之后,突然发现,.NET的...
2019-08-21 10:29:02 1850
某股份制商业银行SOA平台实施路线
2011-03-03
高并发高负载系统架构
2011-03-03
企业应用架构模式(软件开发)
2011-03-03
领域驱动设计(精简版)
2011-03-03
库存管理系统设计方案
2011-03-02
某公司全国营销管理信息系统详细设计报告
2011-03-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人