wtbsm-CSDN博客

原创数据分析：pandas——bool索引和缺失数据的处理

pandas之布尔索引In:df[df['columnsName']>/</=数]Out:columnsNamecolumnsName index valuesvaluesindexvaluesvaluesindexvalues...

2021-08-20 23:46:40 539

pandas之取行或者列df_sorted = df.sort_values(by='columnsName')df_sorted[:行数]具体选择某一列 df['columnsName']同时选择行和列 df[:行数]['columnsName']更多经过pandas优化过的选择方式：df.loc通过标签索引行数据 df.iloc通过位置获取行数据pandas之locpandas之iloc赋值更改数据的过程：...

2021-08-19 23:17:23 235

原创数据分析：pandas——DataFrame的描述信息

2021-08-19 22:19:10 622

原创数据分析：pandas——dataFrame的创建

DataFrame对象既有行索引，又有列索引行索引，表明不同行，横向索引，叫index，0轴，

2021-08-19 21:39:08 108

原创数据分析：pandas——series的了解

为什么要学习pandasnumpy能够帮我们处理数值型数据，很多时候，我们的数据除了数值之外，还有字符串，还有时间序列等，numpay能够帮助我们处理数值，但是pandas除了处理数值之外（基于numpy），还能够帮助我们处理其他类型的数据什么是pandaspandas is an open source,BSD-licensed library providing high-performance,esay-to-use data structures and data analysis to

2021-08-17 23:24:14 170

原创数据分析：numpy——随机方法

numpy更多好用的方法获取最大值最小值的位置 np.argmax(t,axis=0) np.argmin(t,axis=0) 创建一个全0的数组：np.zeros((3,4)) 创建一个全1的数组：np.ones((3,4)) 创建一个对角线为1的正方形数组（方阵）：np.eye(3)numpy生产随机数参数解释 .rand(d0,d1,…,dn) 创建d0-dn维度的均匀分布的随机数数组，浮点数，范围从0-1 .randn(...

2021-08-17 21:32:54 153

原创数据分析：numpy——练习

import numpy as npdef fill_ndarray(t1): for i in range(t1.shape[1]):# 遍历每一列 temp_col = t1[:,i]# 当前的一列 nan_num = np.count_nonzero(temp_col != temp_col) if nan_num != 0:# 不为0，说明当前这一列中有nan temp_not_nan_col = temp_col[.

2021-08-16 23:55:41 89

原创数据分析：numpy——nan和常用统计方法

nampy中的nan和infnan(NAN,Nan):not a number表示不是一个数字什么时候numpy中会出现nan：当我们读取本地的文件为float的时候，如果有缺失，就会出现nan；当做了一个不合适的计算的时候（比如无穷大（inf）减去无穷大）inf(-inf,inf):infinity,inf表示正无穷，-inf表示负无穷什么时候出现inf包括（-inf，+inf）：比如一个数字除以0，（python中直接会报错，numpy中是一个inf或者-inf）numpy中的.

2021-08-16 23:12:46 618

原创数据分析：numpy——数据的拼接

数组的拼接这里需要注意的是有对应的逆操作——水平/竖直切（分）割，是对应水平/竖直切（分）割的逆操作，即水平分割是在原数组中竖直画一条线，而竖直分割则是在原数组中水平画一条线。数组的行列交换原因：竖直拼接的时候：每一列代表的意义相同！！！否则牛头不对马嘴如果每一列的意义不同，这个时候应该交换某一组的数的列，让其和另外一类相同...

2021-08-13 21:28:12 89

原创数据分析：numpy——更多的索引方式

numpy中数值的修改numpy中布尔索引numpy中三元运算符numpy中的clip（裁剪）

2021-08-12 23:39:21 76

原创数据分析：numpy——索引和切片

2021-08-12 23:26:13 164

原创数据分析：numpy——读取本地数据

轴（axis）在numpy中可以理解为方向，使用0，1，2数字……表示，对于一个一维数组，只有一个0轴，对于2维数组（shape（2，2）），有0轴和1轴，对于3维数组（shape（2，2，3）），有0，1，2轴有了轴的概念之后，我们计算会更加方便，比如计算一个2维数组的平均值，必须指定是计算哪个方向上面的数字的平均值numpy读取数据CSV:Comma-SeparatedValue,逗号分隔值文件显示：表格状态源文件：换行和逗号分隔行列的格式化文本，每一行的数据表示一条记录由于

2021-08-10 23:39:38 386

原创数据分析：numpy——数组的计算

数组的形状数组和数的计算广播原则

2021-08-10 00:30:01 70

原创数据分析：numpy——数组的创建

为什么要学习numpy快速方便科学计算的基础库什么是numpy一个在python中做科学计算的基础库，重在数值计算，也是大部分python科学计算库的基础库，多用于在大型、多维数组上执行数值运算。numpy创建数组（矩阵）numpy中常见的更多数据类型类型类型代码说明 int8、uint8 i1、u1 有符号和无符合的8位（1个字节）整型 int16、uint16 i2、u2 有符号和无符合的16位（2个字节...

2021-08-10 00:28:45 90

原创数据分析的介绍

为什么要学习数据分析有岗位需求是python数据科学的基础是机器学习课程的基础什么是数据分析数据分析是用适当的方法对收集来的大量数据进行分析，帮助人们做出判断，以便采取适当行动。数据分析的流程提出问题↓准备数据↓分析数据↓获得结论↓成果可视化...

2021-08-09 22:17:04 254

原创 scrapy框架

什么是框架？就是一个集成了很多功能并且具有很强通用性的项目模板。如何学习框架？专门学习框架封装的各种功能的详细用法。什么是scrapy？爬虫中封装好的一个明星框架。功能：高性能的持久化存储；异步的数据下载；高性能的数据解析；分布式...

2021-08-06 22:47:23 67

原创 xpath解析01

爬取58同城二手房中的房源信息from lxml import etreeimport requests# 爬取页面源码数据url = 'https://sz.58.com/ershoufang/'headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 ' '

2021-08-05 23:03:25 52

原创 xpath解析

xpath解析：最常用且最便捷高效的一种解析方式。通用性。xpath解析原理：实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中。调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。如何实例化一个etree对象：将本地的HTML文档中的源码数据加载到etree对象中：etree.parse(filePath)可以将从互联网上获取的源码数据加载到该对象中：etree.HTML(‘page_text’)xpath(‘xpath表达式’)

2021-08-04 22:49:45 137

原创 bs4解析02

爬取《三国演义》小说所有的章节标题和章节内容from bs4 import BeautifulSoupimport requests# 对首页的页面数据进行爬取url = 'http://sanguo.5000yan.com/'headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107'

2021-08-03 23:31:28 41

原创 bs4解析

数据解析的原理：标签定位提取标签、标签属性中存储的数据值bs4数据解析的原理：实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取如何实例化BeautifulSoup对象:from bs4 import BeautifulSoup对象的实例化：将本地的HTML文档中的数据加载到该对象中将互联网上获取的页面源码加载到该对象中提供的用于数据解析的方法和属性：soup.t

2021-08-02 22:45:31 285

原创正则解析02

正则解析01的案例只抓取了第一页的所有图片。如何抓取所有页面的图片：通过分析不同页面的URL发现page后面的数字就代表当前页面是第几页，只要通过改变URL中page后的数字就能到达不同的页面所有我们只需要封装一个通用的URL模板（设置一个新变量pageNum），代码如下：url = 'https://www.qiushibaike.com/imgrank/page/%d/'for page_Num in range(1,14): new_url = format(url%page_Num)

2021-08-02 21:48:11 48

原创正则解析01

爬取糗事百科中热图板块下所有的图片import requestsimport reimport os# 创建一个文件夹，保存所有的图片if not os.path.exists('./qiushibaike'): os.mkdir('./qiushibaike')url = 'https://www.qiushibaike.com/imgrank/'headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) App

2021-08-01 23:41:18 35

原创数据解析概述

聚集爬虫：爬取页面中指定的页面内容编码流程：指定URL发起请求获取响应数据数据解析持久化存储数据解析分类：正则bs4xpath（***）数据解析原理概述：解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储进行指定标签的定位标签或者标签对应的属性中存储的数据值进行提取（解析）...

2021-08-01 22:34:05 89

原创 requests模块05：综合练习

爬取国家药品监督管理局中基于中华人民共和国化妆品许可证相关数据http://scxk.nmpa.gov.cn:81/xk/动态加载数据首页中对应的企业信息数据是通过Ajax动态请求到的通过对详情页URL的观察发现：URL的域名都是一样的，只有携带的参数（id）不一样id值可以从首页对应的Ajax请求到json串中获取域名和id值拼接成一个完整的企业对应的详情页的URL详情页的企业详情数据也是Ajax动态加载出来的观察后发现：所有的post请求的URL都是一样的，只有参数id值是不

2021-08-01 00:01:23 87

原创 requests模块04

爬取豆瓣电影分类排行榜https://movie.douban.com/中的电影详情数据import jsonimport requestsurl = 'https://movie.douban.com/j/chart/top_list'param = { 'type':'3', 'interval_id':'100:90', 'action':'', 'start':'0',#从库中的第几部电影去取 'limit':'20',#一次取出的个数}headers = { 'User-A

2021-07-31 22:26:15 59

原创 requests模块03

破解百度翻译post请求（携带了参数）响应数据是一组json数据import requestsimport json# 1.指定URLpost_url = 'https://fanyi.baidu.com/sug'# 2.进行UA伪装headers = { 'User-Agent':'' }# 3.post请求参数处理（同get请求一致）word = input('enter a word:')data = { 'kw':word}# 4.请求发送response =

2021-07-31 21:20:59 34

原创 requests模块02

实战巩固需求：爬取搜狗指定词条对应的搜索结果页面（简易网页采集器）需求：破解百度翻译需求：爬取豆瓣电影分类排行榜中的电影详细数据需求：爬取肯德基餐厅查询中指定地点的餐厅数需求：爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据网页采集器# UA:User-Agent(请求载体的身份标识)# UA伪装：门户网站的服务器会检测对应请求的载体身份标识，如果检测的请求的载体身份标识为某一款浏览器，说明该请求是一个正常的请求。但是，如果检测到请求的载体身份标识不是基于某一款浏览器

2021-07-30 23:48:48 92

原创 requests模块01

requests模块：python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率极高。作用：模拟浏览器发请求。如何使用：（requests模块的编码流程）指定URL发起请求获取响应数据持久化存储环境安装：pip install requests实战编码：需求：爬取搜狗首页的页面数据import requests# step1:指定urlurl='https://www.sogou.com'# step2:发起请求# get方法会返回一个响应对象respo

2021-07-29 23:14:15 109

原创 requests模块+lxml模块

今天学习的是如何使用第三方库——requests库以及lxml库对网站进行爬虫。教学案例是对网易云上的音乐进行爬虫下载。开始前首先要明晰爬虫整个程序的作用、原理、目的以及流程。爬虫抓取的数据来源于哪里？——即音乐从哪里来？从网站的服务器上下载的，可以简单理解为网站上的。想要访问一个网站需要该网站的网址，即URL。本案例中的网址如下：（需要注意的是复制后需要删除#/）有了原材料：网址，我们就思考如何从网址里获取我们需要的信息？——怎么从网址里得到音乐？需要向该网站发起网络数据请求。同意后网站会

2021-07-28 22:07:02 506

原创数据分析（python系）

就业市场调查报告技能要求用人单位类型工作内容薪酬发展路径技能要求流程：SEMMA 流程S：Sample 搜集数据，抽样问卷、数据库、实验室、仪器设备记录E：Explore 探索离散变量分布比例、连续变量的分布形态（正态、偏态？）、数据的异常和缺失、特征选择M：Modify 数据修正类型转换、一致性处理（单位）、异常值和缺失值处理、数据形态的转换M：Model 数据建模（挖掘要用）A：Assess 模型评估RMSE，KS...

2021-07-09 23:43:25 249 2

ouat2018的博客