![](https://img-blog.csdnimg.cn/20190906205124637.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python/Spider/Analysis
文章平均质量分 92
Python/爬虫/数据分析
燕双嘤
程序辅导,毕业设计,课程作业,比赛代打等,17724838277
展开
-
DataAnalysis:数据分析、数据清理、数据合并
1,数据分析方法1.1,基本数据分析基本数据分析又称为描述性统计,一般统计某个变量的个数、均值、标准差、最小值、25%分位置、50%分位值、75%分位值,以及最大值。常用的统计分析指标有计数、求和、求均值、方差、标准差等。import numpy as npimport pandas as pd#分析人的使用左右手跟情商(eq)、智商(iq)的关系df =pd.DataFrame({"HAND":np.random.randint(0,10,size = 200),"sex":np.r原创 2019-10-15 09:25:16 · 1221 阅读 · 0 评论 -
DataAnalysis:索引、运算函数、统计函数、文件读写
1,Pandas的索引1.1,Index索引对象Pandas的两种数据结构Series和DataFrame都是具备索引的。在创建pandas的两种数据结构时,可以通过选项参数index指定标签或行索引。Pandas的索引对象负责管理轴标签和其他元数据(轴名称)。在创建Series或DataFrame的时候所用到的任何数组或其他序列的标签都会被转换成一个Index对象。与pandas数据结构(Series和DataFrame)中其他元素不同的是,Index对象不可修改的,一旦声明,它就不能改原创 2019-10-20 09:33:38 · 399 阅读 · 0 评论 -
DataAnalysis:Pandas数据结构(Series、DataFrame)
Pandas是以NumPy为基础进行设计的,因此Pandas不仅能与其他大多数模块兼容,而且还能借助NumPy模块强大的计算能力。因此,在数据分析中NumPy和Pandas这两个模块经常一起使用。另外, 为了数据分析的需要,pandas既不使用Python已有的内置数据结构,也不使用其他库的数据结构,而是专门设计了两中新型数据结构。使用这两种数据结构管理与SQL关系数据库和Excel工作表具有类似特征的数据会非常方便。由于pandas最初是作为金融数据分析工具而开发出来的,因此,pandas为时间序列分析.原创 2019-09-06 22:29:01 · 507 阅读 · 0 评论 -
DataAnalysis:数组计算,矩阵计算,统计分析
1,NumPy数组的计算NumPy的多维数组(ndarray)是一个快速而灵活的大数据集容器,它不仅具有矢量运算和复杂广播的能力,而且还具有对数组数据进行快速运算的标准数学函数。1.1,数组的运算(广播机制)在NumPy中,数组可以直接进行加、减、乘、除、指数、求倒数、取相反数、位运算等运算,而不需要使用烦琐的for循环之类的算法,并且在除法运算时,遇到除数为0时,会自动提示无效运算,但是仍会将计算结果显示出来,无效除值用NaN或inf表示。在组合运算中,相同形状的数组按元素级进行逐个元素原创 2019-10-21 09:41:06 · 396 阅读 · 0 评论 -
DataAnalysis:NumPy概述,数组对象,数组操作、文件存取
1,NumPy概述1.1,NumPy简介NumPy、Pandas、Matplotlib被称为机器学习三剑客,其中NumPy是用Python实现科学计算的开源的扩展程序库,最重要的一个特点是具有一个快速而灵活的大数据容器N维数组对象(Ndarray)。数据分析中,NumPy数组的维数也称为秩,秩其实是描述轴的数量或者维度的数量,是一个标量。数组属性int_hape返回一个元组,这个元素描述了每个维度中数组的大小。元组的长度即为秩的秩,即维度。NumPy的基本组成:由实际的数据和描述这些数原创 2019-09-06 16:00:14 · 465 阅读 · 0 评论 -
DataAnalysis:基本概念,环境介绍,环境搭建,大数据问题
1,概述1.1,数据的性质所谓数据就是描述事物的符号,是对客观事物的性质、状态和相互关系等进行记载的物理符号或者是这些物理符号的组合。在计算机系统中,各种文字、字母、数字符号的组合,图形、图像、视频、音频等统称为数据,数据经过加工后就成了信息。数据是对世界万物的记录,任何可以被测量或是分类的事物都能用数据来表示。在采集完数据后,可以对数据进行研究和分析,从而获得有价值的信息。数据与信息既有联系,又有区别。数据是信息的表现形式,而信息则是数据的内涵,信息是加载于数据之上的,对数据做具体含义的解释原创 2020-03-11 15:42:50 · 2375 阅读 · 0 评论 -
SpiderMan:Selenium,模拟登录,APP&PC,其他案例
1,异步加载1.1,异步加载技术与爬虫方法传统的网页如果需要更新信息,必须重载整个网页页面,网页加载速度慢,用户体验差,而且数据传输少,会造成宽带浪费。异步加载技术(AJAX),是指一种创建交互式网页应用开发技术。通过在后台与服务器进行少量数据交换,AJAX可以使网页实现异步更新,这意味着不需要刷新就可以对网页的某部分进行更新。类似于简书网个人主页,并没有分页信息,而是一直可以浏览下去。通过爬虫代码发现,爬取不到信息。import requestsfrom lxml import et原创 2021-10-13 19:43:58 · 885 阅读 · 1 评论 -
SpiderMan:异步加载,图片爬取,数据库存储,多进程爬虫,IP代理
1,使用API1.1,API使用方法API是通过Requests请求和服务端的Response回应来完成API的一次调用,所以用Python语言进行API的调用时,便可以使用Requests库来进行请求。import requestsurl = "http://fanyi.youdao.com/translate?&doctype=json&type=AUTO&i=你好"res = requests.get(url)print(res.text)=======原创 2021-10-10 07:14:17 · 2159 阅读 · 0 评论 -
SpiderMan:基本原理,BeautifulSoup,正则表达式,Lxml
1,爬虫概述1.1,基本原理网络爬虫又称为网络蜘蛛,是一个用来实现自动采集网络数据的程序。如果将互联网比作一张蜘蛛网,互联网上的一个个网页比作蜘蛛网上的一个个节点,那么网页与网页之间的链接关系可以比作节点间的连线,而网络爬虫就可以比作在网上爬来爬取的蜘蛛。蜘蛛爬到一个节点相当于访问了该网页,提取了信息,然后顺着节点的连线继续爬行到下一个节点,这样周而复始,蜘蛛就可以爬遍整个网络的所有节点,抓取数据。爬虫通俗地讲就是通过程序去获取Web页面上自己想要的数据,也就是自动抓取网页数据的程序。一般来说原创 2020-10-16 17:24:17 · 931 阅读 · 1 评论 -
Python:多线程
1,线程概述几乎所有的操作系统都支持同时运行多个任务,一个任务通常就是一个程序,每一个运行中的程序就是一个进程。当一个程序运行时,内部可能包含多个顺序执行流,每一个顺序执行流就是一个线程。从执行方式上来看,每个任务都是交替执行的,但是,由于CPU的执行速度太快,给用户的感觉就像所有任务都在同时执行一样。真正的并行执行多任务只能在多核CPU上实现,但由于任务数量远远多于CPU的核心数量,所以,操作系统也会自动把很多任务轮流调度到每个核心上执行。1.1,线程和进程几乎所有的操作系统都支持进程的原创 2021-10-04 21:30:04 · 277 阅读 · 0 评论 -
Python:文件处理,数据库操作
1,打开文件1.1,open()方法Python提供了一个内置的open()函数,该函数用于打开指定文件。该函数的语法格式如下:file object = open(file_name [, access_mode][, buffering])参数的细节如下:file_name:file_name变量是一个包含了你要访问的文件名称的字符串值。 access_mode:access_mode决定了打开文件的模式:只读,写入,追加等。所有可取值见如下的完全列表。这个参数是非强制的,默认原创 2021-10-03 22:24:55 · 1018 阅读 · 0 评论 -
Python:异常处理,模块和包,正则表达式
1,异常处理机制Python的异常处理机制可以让程序具有极好的容错性,让程序更加健壮。当程序运行出现意外情况时,系统会自动生成一个Error对象来通知程序,从而实现将“业务实现代码”和“错误处理代码”分离,提供更好的可读性。1.1,使用try...except捕捉异常Python提出一种假设:如果程序可以顺利完成,那就“一切正常”,把系统的业务实现代码放在try块中定义,把所有的异常处理逻辑放在except块中进行处理。在异常处理语法结构中,只有try块是必须的,也就是说,如果没有tr原创 2021-10-03 18:46:56 · 351 阅读 · 1 评论 -
Python:面向对象程序设计
1,基础篇(类、对象)1.1,类的定义在面向对象的程序设计过程中有两个重要概念:类(class)和对象(object),其中类是某一批对象的抽象,可以把类理解成某种概念;对象才是一个具体的实体。它们的关系:设计图和设计物。Python的类大致有两种功能:创建对象、派生子类。Python定义类的语法:class demo: public = "3" # 共有属性——类变量 _protected = "1" # 保护属性——类变量 __private = "2".原创 2019-05-18 20:57:31 · 2693 阅读 · 0 评论 -
Python:列表,元组,字典,集合
1,列表,元组,字典,集合1.1,概念列表(list):是长度可变有序的数据存储器,可通过下标索引取到相应的数据。元组(tuple):固定长度不可变的顺序容器,访问效率高,适合存储一些长常量数据,可以作为字典的键使用。集合(set):无序,元素只出现一次,可以自动去重。字典(dict):长度可变的hash字典容器。存储方式为键值对,可以通过相应的键获取相应的值,key支持多种类型。key必须是不可变类型且唯一。属性\数据类型 列表 元组 集合 字典 英.原创 2019-03-26 17:38:39 · 9150 阅读 · 0 评论 -
Python:流程控制,函数方法
1,顺序结构顺序结构是一种最简单的算法结构,算法中列出的操作步骤是顺序执行的,操作的排列顺序与执行顺序一致,每个操作能且仅能被执行一次。a = "Hello Python"print(a)=================Hello Python1.1,赋值语句赋值语句是顺序结构中最常见的语句形式,用于给某个对象赋值。Python中的赋值语句有多种形式,如普通赋值、增量赋值、链式赋值和多重赋值,基本的赋值操作使用最广,其他集中赋值操作使用频率也较高。# 普通赋值a =原创 2021-09-28 22:38:25 · 280 阅读 · 0 评论 -
Python:简介,变量,字符串,运算符
1,Python简介1.1,Python特点Python是一种面向对象、解释型、弱类型的脚本语言,它也使一种功能强大而完善的通用性语言。相比其他编程语言(Java),Python代码非常简单,上手非常容易。比如我们想要完成某个功能,如果用Java需要100行代码,但用Python可能只需要20行代码,这是Python具有巨大吸引力的一大特点。Python的特点:Python是一种解释型语言,因此,Python代码在运行前不需要编译。 Python是动态类型语言,在声明变量时,不需要指原创 2021-09-21 19:47:26 · 549 阅读 · 0 评论