python
文章平均质量分 71
little_miya
这个作者很懒,什么都没留下…
展开
-
python webscraping爬虫相关知识
一、简单说明主要就是两个包:requests:从网络获取数据,主要是html格式的数据。beautifulsoup:解析html格式为python相关数据结构。这里主要介绍下相关的比较重要的函数。find_all(name, attrs, recursive, string, limit, **kwargs)当我们提供一个标签(tag)作为name的时候,函数会返回所有带该标签的内容以及该标签覆盖的子内容。第一个参数还是比较重要的。如果对html语言熟悉的话,能很快找到自己想要的东西。比不a表原创 2021-12-22 23:21:47 · 1121 阅读 · 0 评论 -
python文件处理相关知识
一、读文件open函数with … as …这种读取文件的方法更加合理,因为不需要考虑打开的文件是否关闭。read的方法# 1. Read certain amount of characterswith open(example1, "r") as file1: print(file1.read(16)) print(file1.read(5)) print(file1.read(9))# 2. Read one linewith open原创 2021-12-22 10:07:56 · 480 阅读 · 0 评论 -
[data engineering] (一)数据工程师的工作内容以及需要的软硬实力
工作内容The role of a Data Engineer includes:Gathering data from disparate sources.Integrating data into a unified view for data consumers.Preparing data for analytics and reporting.Managing data pipelines for a continuous flow of data from source原创 2021-12-20 14:55:15 · 1362 阅读 · 0 评论 -
[pandas练习册] 如何在pandas中重写SQL命令实现同样的数据查询效果
前言python必知必会的数据处理知识1(pandas))python必知必会的数据处理知识2(pandas))pandas中高频函数详细说明之前有文章介绍pandas这个包,以上为对应链接。本文使用pandas实现SQL的语言功能,可以当做是pandas的练习。建议本文的使用方法:首先看SQL这一列想要取出来的数据,然后在jupyter上使用pandas操作取出对应数据。最后与答案进行核对。首先准备数据:所有数据从该链接下载: http://ourairports.com/data/im原创 2021-12-16 02:27:51 · 2075 阅读 · 0 评论 -
python必知必会的数据处理知识2(pandas))
本节重点是统计运算。通常用pandas做事情,涉及数值运算的少。一、数值运算数值运算只对数值列起作用。1. +,-,x,/,//,%,**可以直接使用 +,也可以使用函数add()DataFrame.add(other, axis='columns', fill_value=None)other:另一个DataFrame或Series;axis:如果other是Series,指定Series的索引去和DataFrame的行匹配,还是和列匹配(+号是默认和列匹配);fill_value:这个原创 2021-12-15 16:14:52 · 2505 阅读 · 0 评论 -
pandas中高频函数详细说明
1. merge合并两个matrixpd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False)concat函数只能根据索引对齐,而如果想在任意列上对齐合并,则需要merge函数,其在sql应用很多。left, right: 两个要对齐合并的DataFrame;how: 先做笛卡尔积操作,然后按照要求,保留需要的,原创 2021-12-14 18:20:37 · 2028 阅读 · 0 评论 -
python必知必会的数据处理知识1(pandas))
1. 简介数据的处理的软件包有很多,在python中主要应用Pandas来进行处理。Pandas是一个十分成熟的数据处理包,熟练掌握可以高效并且方便地将数据进行转换和清洗,本节主要是pandas的一些基本技能和实用技巧。数据科学家经常和表格形式的数据(比如.csv、.tsv、.xlsx)打交道。Pandas可以使用类似SQL的方式非常方便地加载、处理、分析这些表格形式的数据。2. 数据结构Series:用index和values分别规定索引和值。如果不规定索引,会自动创建 0 到 N-1 索引。S原创 2021-12-14 01:12:59 · 4490 阅读 · 0 评论 -
python必知必会的面向对象知识
一、 相关概念组合与继承组合是使用其他类实例作为自己的一个属性 (has-a关系)继承是子类继承父类的属性和方法 (is a 关系)优先使用组合保存代码简单代码简单说明继承和多态:class Animal: def run(self): print("animal is running")class Dog(Animal): def run(self): print("Dog is running")class Cat(Animal):原创 2021-12-11 16:23:46 · 570 阅读 · 0 评论 -
python必知必会的语言基础篇
python是动态(运行期确定类型)强类型(不会发生隐式转换)语言1. python基本数据类型6个标准数据类型:Number(int float bool etc)StringListTupleSetDictionary其中:不可变数据:Number、String、Tuple可变数据:List、Dictionary、Set2. python如何传参python传递的都是引用, 如果是可变数据,则直接修改;如果是不可变数据,则产生新对象,让形参指向新对象。举例:def fi原创 2021-12-10 20:48:33 · 660 阅读 · 0 评论 -
数据分析师必备的python包
数据分析师必备的python包1. numpynumpy提供大量数值编程工具,可以方便处理向量矩阵等运算。是科学计算方面的利器。2. scipy统计统计就是在做宏观分析的工作。拿到一组数据,分析数据的特征,具体包括样本大小,极值,均值,方差,偏度和峰度,数据的相关系数等。分布是统计学中最基本的知识。如何指定参数生成分布,一组数据是否符合某种分布(假设检验),分布中的分位,以及认定数据属于某种分布时其对应的参数的最大似然估计(fit)。这些都在scipy.stats包中提供对应的函数实现。sci原创 2021-12-09 20:38:37 · 3646 阅读 · 0 评论 -
python 中的排序相关知识
详细的教程link1. sorted and sort区别:返回值不同:调用sorted函数会返回一个新的已排序的list,调用list.sort()会直接修改原list,并返回None,如果不需要原列表,list.sort()会更加高效sorted函数可以接收任何可迭代对象2. keykey形参来制定在进行列表元素比较之前调用的函数,所以形参值应该是个函数(可调用对象),函数接收一个参数,返回用于排序的key举例:sorted("This is a test string from A原创 2021-07-08 15:45:38 · 104 阅读 · 0 评论 -
python构建二维数组不要使用list乘法
直接举例子:ss = [['a'] * 3] * 3ss[1][1] = 'b'print(ss)ss[0][1] = 'b'print(ss)ss[2][1] = 'b'print(ss)三个print的结果都是:如果你在构建二维数组的时候使用list的乘法,就会出错。根本原因是,只要你改动了ss[<任意>][0],他都会将整列进行修改。所有的行都是相同的复制。都指向同一片内存。使用函数 id(object)->int可以查看对应十进制的内存地址。如果你使用原创 2021-07-08 11:51:50 · 335 阅读 · 0 评论 -
python对正则表达式的支持
之前,我们曾经介绍过正则表达式如何在介绍linux中grep命令的时候,顺带说明了正则表达式相关语法。本文,我们来看下如何在python中实现对正则化的处理。1. python中re模块的用法python通过re模块实现对正则化的解析。具体常用函数,如下表所示。之外,如果函数范围的是正则表达式对象,对象同样调用这些自己的函数。如果一个pattern需要重复使用,我们应该调用compile生成对应re对象。其中前几个函数很常用。2. 补充re的语法除了在grep中提到的一些常用的字符含义之外,原创 2021-03-10 22:38:05 · 246 阅读 · 0 评论