自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 收藏
  • 关注

原创 数据预处理

title: 数据预处理category: 数据分析基础Dataframe 的数据预处理import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['STFangsong']plt.rcParams['axes.unicode_minus'] = False%config InlineBackend.figure_format = 'svg'.

2021-12-09 09:13:00 877

原创 Pandas - Review

title: Pandas回顾及应用category: 数据分析基础Pandas 的应用import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['STFangsong']plt.rcParams['axes.unicode_minus'] = False%config InlineBackend.figure_format = 'svg.

2021-12-09 09:12:24 738

原创 Numpy-Review

title: Numpy 回顾及应用category: 数据分析基础Numpy的应用import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['STFangsong']plt.rcParams['axes.unicode_minus'] = False%config InlineBackend.figure_format = 'svg'.

2021-12-09 09:11:39 283

原创 BeautifulSoup的用法

BeautifulSoup的用法beautifulSoup是一个灵活又方便的网页解析库,处理高效,支持多种解析器。利用它不用编写正则表达式即可方便地实现网页信息的提取。安装通过指令: pip install beautifulsoup4 或者在pycharm第三方库安装页面中搜索安装beautifulsoup4即可。使用解析库解析器使用方法优势劣势Python标准库BeautifulSoup(markup, ‘html.parser’)Python的内置标准库、执行速

2021-12-06 20:22:17 373

原创 波士顿房价 lr回归

import numpy as npimport pandas as pd import matplotlib.pyplot as pltfrom collections import Counterfrom sklearn.datasets import load_irisplt.rcParams['font.sans-serif'] = ['STFangsong']plt.rcParams['axes.unicode_minus'] = False%config InlineBacke

2021-10-19 19:35:10 97

原创 鸢尾花、NBA数据集KNN分类

import numpy as npimport pandas as pd import matplotlib.pyplot as pltfrom collections import Counterfrom sklearn.datasets import load_irisplt.rcParams['font.sans-serif'] = ['STFangsong']plt.rcParams['axes.unicode_minus'] = False%config InlineBack

2021-10-19 19:32:46 621

原创 数据可视化

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['STFangsong']plt.rcParams['axes.unicode_minus'] = False%config InlineBackend.figure_format = 'svg'1 数据可视化1.1 Matplotlib画图给内部人员看,主要用于数据探索,核心组件包

2021-09-23 19:22:03 395

原创 Pandas Cut 与dataframe随机抽取(sample)替换(replace)应用案例

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['STFangsong']plt.rcParams['axes.unicode_minus'] = False%config InlineBackend.figure_format = 'svg'cut 使用df = pd.read_csv('../files/data/2018年北京

2021-09-22 15:17:28 1066

原创 Pandas 进阶

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['STFangsong']plt.rcParams['axes.unicode_minus'] = False%config InlineBackend.figure_format = 'svg'数据分析的一般流程提取数据(筛选)布尔索引query():相当于布尔索引dro

2021-09-17 19:03:42 7808 2

原创 Pandas 入门

Pandas 入门‘Series’:数据系列,代表一维数据,较numpy中的一维数组更强大;‘DataFrame’:数据窗/数据框/数据表,代表二维数据,封装了数据分析常用的各种方法;‘Index’:索引,为Series和DataFrame提供数据索引服务。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['STFangsong']

2021-09-16 19:41:54 638

原创 NumPy的高级应用(example)

NumPy的高级应用包的导入以及图像上中文字体设置、图像清晰度设置import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['STfangsong']plt.rcParams['axes.unicode_minus'] = False%config InlineBackend.figure_format = 'svg'常用函数array1

2021-09-15 20:28:25 665

原创 认识Numpy

1. Numpy创建和使用一维数组import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ["STFangsong"]# 添加字体plt.rcParams['axes.unicode_minus'] = False #默认是使用Unicode负号,设置正常显示字符,如正常显示负号%config InlineBackend.figure_for

2021-09-14 19:39:45 386

原创 数据分析工具之numpy、pandas & jupyter notebook基本使用

数据分析工具之numpy、pandas & jupyter notebook基本使用安装命令行使用命令:pip install numpy pandas 、pip install jupyter jupyterlab安装第三方库jupyter notebook 与jupyterlab 使用方式大同小异。本文只分享jupyter notebook的使用使用cd至想要保存生成文件的目标路径后使用如下命令:jupyter notebook后会自动使用默认浏览器打开网页(显示该路径下的所有文件)

2021-09-13 19:57:31 653 1

原创 搭建个人博客安装一键部署插件 npm install hexo-deployer-git --save 的问题(Hexo框架)

搭建个人博客安装一键部署插件 npm install hexo-deployer-git --save 的问题(Hexo框架)网上在这块的问题以及解决方式很多,我觉得最有必要记录的就是:眼看要成功的时候,在安装一键部署插件 npm install hexo-deployer-git --save 时报错。找了很久解决方式没找到,最后抱着试一试的态度尝试了:cnpm install hexo-deployer-git --save(cnpm会创建文件夹的引用,而npm不会) ,居然成功

2021-09-11 17:31:40 3612 13

原创 Python 装饰器基础用法 基本格式

Python 装饰器基础用法 基本格式装饰器:用一个函数去装饰另一个函数或类,为其提供额外的能力实现了一种名为代理模式的经典设计模式​ 横切关注功能(cross-concern):跟正常的业务没有必然联系的功能​ 这样的功能最适合用装饰器(代理模式)来实现举个例子:现有模仿下载与上传并记录这个过程耗时功能的函数:下载:def download(filename): start_time = time.time() print(f'开始下载{filename}

2021-09-08 20:32:46 434

原创 代码版本管理工具Git基本命令(基本使用)

代码版本管理工具Git基本命令(基本使用)git命令:注:<>表示占位实际命令不需要1、git – version 查看版本信息2、pwd 查看当前路径3、ls 查看当前目录所有文件夹4、mkdir 创建文件夹5、git init 初始化本地仓库(会创建一个.git的隐藏文件夹,不可删除)6、

2021-09-08 17:46:56 264

原创 Python Web 框架 Flask的最基本使用

Python Web 框架 Flask的最基本使用首先还是第三方库Flask的安装;终端执行pip install flask即可import flask导入包后创建flask对象app = flask.Flask(__name__)注意:括号中的_ _name__参数需要自己添加再用创建好的对象指定网页访问路径@app.route('/')def index(): return '<h1>Hello Flask!</h1>'上述表示根路径,即访问给定

2021-09-01 21:03:20 198

原创 Python重复代码自动封装为方法

Python重复代码自动封装为方法编写代码时重复代码不仅会让程序员更加疲劳甚至代码的重复率过高还会让人质疑能力;所以重复代码的封装也很有必要。Refactor>Extract>Method

2021-08-31 21:00:09 439

原创 Pymysql 连接数据库增删改查操作与批处理

Pymysql 连接数据库增删改查操作与批处理首先还是第三方库的安装:pymysql ----> 纯Python编写,安装一定会成功mysqlclient ----> 底层用C编写,安装不一定会成功import pymysql第一步:创建连接connection = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='123456',database='hrs', charset='utf

2021-08-31 20:54:22 315

原创 MySQL 简易学生选课系统查询语句

MySQL 简易学生选课系统查询语句1. 创建school数据库如果存在名为school的数据库就删除它drop database if exists `school`;创建名为school的数据库并设置默认的字符集和排序方式create database `school` default character set utf8mb4;2. 创建学院表、学生表、教师表、课程表、选课记录表:-- 创建学院表create table `tb_college`(`col_id` int un

2021-08-28 11:34:48 2172

原创 MySQL 基础语法及workbench ER图 转SQL语句

MySQL 基础语法及workbench ER图 转SQL语句为什么使用数据库解决数据持久化问题高效的数据管理(增删改查)数据库的分类关系型数据库​ 理论基础:关系代数​ 具体表象:二维表​ 行:记录​ 列:字段非关系型数据库(NoSQL / NewSQL)​ MongoDB -->文档数据库​ Redis --> KV数据库编程语言:SQL - Structured Query Language(结构化查询语言)DB - database

2021-08-26 16:07:45 1109

原创 Python 光学文字识别

Python 光学文字识别easyocr光学文字识别主要应用于文字验证码、滑块等类型的登录验证。首先需要的是第三方库 easyocr(有点大1.5G左右)。安装导入后使用:reader = easyocr.Reader(['ch_sim','en'],gpu = False)print(reader.readtext('file/IDcard.jpg',detail = 0))列表中参数表示可识别文字语言种类。***‘ch_sim’ - 简体中文 ‘en’ - 英文***页面抠图导包

2021-08-24 19:28:56 366

原创 Python队列 线程池 进程池 基本概念以及使用方法

Python队列 线程池 进程池 基本概念以及使用方法线程、进程概念算是对上一篇文章的回顾,具体细节参见上文。概念进程:一个正在运行的应用程序就是一个进程。一个进程是运行在其专用且受保护的内存空间中线程:一个进程要执行任务必须要有线程。进程 — 车间 线程 — 车间工人线程的特点:一个线程执行多个任务是串行执行的多线程:一个进程中有多个线程。多线程可以并行(同时)执行多个任务多线程原理:多线程技术是通过利用CPU空闲时间干活来提高程序执行效率多线程一个应用程

2021-08-18 19:27:46 583

原创 Python - 多线程与多进程

Python - 多线程与多进程多线程程序默认都是单线程(这个默认线程又叫主线程,其他的线程都叫子线程)Thread类的对象就是线程对象,程序需要多少个子线程就创建多少个Thread的对象import timefrom datetime import datetimefrom threading import Thread,current_thread模拟电影下载线程:def download(movie_name:str): print(f'《{movie_name}》开始下载

2021-08-17 18:25:06 130

原创 Python - xpath解析XML、HTML

Python - xpath解析XML、HTML绝对路径:HTML / body / div / a相对路径: ./a专业术语树:整个HTML或XML结构节点:HTML中的每个标签,XML中标签就是节点根节点:树的第一个节点,HTML的根节点就是HTML标签属性:节点属性(HTML中就是标签属性)from lxml import etreexpath解析xmlXML数据格式json数据与XML数据时两种通用的数据格式,用于不同语言之间进行数据交流将一个超市的商品数据进行传输:js

2021-08-16 18:48:22 1892 1

原创 使用selenium与网页交互、嵌套网页爬取

使用selenium与网页交互、嵌套网页爬取前进、后退、切换选项卡from selenium.webdriver import Chromeimport time创建浏览器对象driver = Chrome()依次进入若干个网站driver.get('https://www.baidu.com')time.sleep(2)driver.get('https://www.jd.com')time.sleep(2)driver.get('https://www.runoob.com')

2021-08-13 18:26:53 2189

原创 requests添加代理以及selenium的使用(淘宝绕过登录爬取数据)

requests添加代理以及selenium的使用(淘宝绕过登录爬取数据)requests添加代理获取代理IP(蘑菇代理) — 会返回一个网址def get_ip(): response = requests.get('返回的网址') if(response.text[0] == '{'): print('IP提取频率过快!10秒后再试试吧!') return None return [ip for ip in response.text.s

2021-08-12 23:05:54 981

原创 requests的使用方法

requests的使用方法直接获取import requestspython基于HTTP协议进行网络请求的第三方库发送请求1、requests.get(url, *, headers, params, proxies) — 发送get请求​ 2、requests.post(url, *, headers, params, proxies) — 发送post请求​参数:​ url — 请求地址(一个网站的网址、接口的地址、图片地址等)​ headers — 设置请求

2021-08-11 22:49:05 2480

原创 爬虫准备 - 认识HTML&css

爬虫准备 - 认识HTML&css爬虫之前除Python基础外还需要认识HTML与css。网页的技术结构:HTML、css、JSHTML(结构标准) — 提供网页内容(通过不同的标签提供不同的内容)CSS(样式标准) — 负责网页内容的样式布局JS(行为标准) — 负责控制网页变化HTMLHTML — 超文本标记语言一个网页就是一个HTML,HTML代码一般写在可以被浏览器直接解析的HTML文件中​ 1)、HTML基本结构:一个HTML标签里面 包含

2021-08-10 22:35:12 174

原创 Python办公自动化 - Excel、CSV、PDF

Python办公自动化 - Excel、CSV、PDFExcel文件操作import openpyxl第三方库,需要自己下载。读操作加载文件(只能加载后缀为.xlsx文件)workbook = openpyxl.load_workbook('files/Task.xlsx')从工作簿获取工作表相关信息a)、获取所有工作表表名work_names = workbook.sheetnames #属性,不加括号print(work_names)b)、获取活跃表对象activ

2021-08-06 19:32:56 283

原创 python 自动化办公 - 邮件自动发送

python 自动化办公 - 邮件自动发送获取授权码设置>账户>POP3/IMAP/SMTP/Exchange/CardDAV/CalDAV服务选择开启邮件的自动发送只依赖python自带类库就能解决:import smtplib# smtplib --- 登录邮箱,发送邮件from email.mime.multipart import MIMEMultipart #构件邮箱对象from email.header import Headerfrom email.m

2021-08-05 22:21:02 357

原创 Python面向对象进阶

Python面向对象进阶对象属性的增删改查查 — 获取属性值1)、对象.属性 — 获取对象指定属性的值,若属性不存在则报错2)、getattr(对象,属性名) — 获取对象指定属性的值,若属性不存在则报错3)、getattr(对象,属性名,默认值) — 获取对象指定属性的值,若属性不存在则返回默认值class Student: def __init__(self,**info): self.name = info['name'] s

2021-08-04 19:10:42 108

原创 Python类和对象基础

Python类和对象基础类和对象的创建什么是类、对象类:拥有相同功能相同属性的对象的集合(抽象的概念)对象:对象是类的实例(具体的事物)从生活的角度理解类和对象:人是类,某一个具体的人是一个对象杯子是类,某一个具体的杯子是一个对象创建类和对象创建类 — 用代码描述清楚这个类拥有哪些相同功能(函数)和哪些相同属性(变量)的对象的集合语法:class 类名: 类的说明文档 类的内容说明:class — 关键字;固定写法类名 — 自命名​

2021-08-03 19:28:26 199

原创 python3正则表达式 - re模块

python3正则表达式与re模块re模块re模块是python提供的专门用来支持正则表达式的一个模块fullmatch函数:fullmatch(正则表达式,字符串) — 让正则表达式与指定字符串进行完全匹配,匹配失败返回None正则语法正则表达式 — 正则表达式是让一个字符串复杂问题变得简单的工具写正则表达式的主要工作:用正则符号描述清楚相关字符串的规则python正则表示方式:r’正则表达式’re模块相关函数compile(正则表达式) — 编译正则表达式,返回一个正则

2021-08-03 11:09:39 529

原创 json数据格式与异常捕获

json数据格式与异常捕获json数据格式什么是jsonjson是一种通用的数据格式json是一种什么样的数据格式(通用)一个json有且只有一条数据(必须有一条数据)惟一的这个数据必须是json支持的类型的数据json支持的类型:​ 数字 — 包含左右的整数和小数,表示的时候直接写 例:999,-123,0.97,9e3​ 字符串 — 用双引号引起来的数据 例:“zzx” , “best”​ 布尔 —

2021-07-31 17:44:00 440

原创 文件操作(接前文学生管理系统 :登录/注册)

Python文件操作数据的存储程序中保存的数据默认都是存储在运行内存内容中,运行内存中的数据在程序结束的时候都会被释放如果希望程序运行过程中产生的数据在程序结束后不被销毁,就需要将数据存储到磁盘中将数据存储到磁盘的过程叫数据持久化、数据本地化数据持久化的基本原理 — 将数据通过文件存储到磁盘中文件操作(操作文件的内容)文件操作主要解决两个问题:​ a)、怎么将程序中的数据通过文件存储到磁盘​

2021-07-30 23:11:38 192

原创 常用系统模块

常用系统模块os模块中常用的函数# 1、os.getcwd() --- 获取当前工作目录print(os.getcwd())# 2、os.listdir(文件夹路径) --- 获取指定文件夹所有文件名称print(os.listdir('../day_13'))# 3、os.path.abspath(相对路径) --- 获取指定文件夹绝对路径print(os.path.abspath('../day_13'))# 4、os.path.basename(路径) --- 获取

2021-07-30 22:23:50 76

原创 Python - 模块与包的使用

Python - 模块与包的使用模块Python中一个py文件就是一个模块怎么在一个模块中使用另外一个模块的内容注意:若需要使用一个模块,那么该模块的模块名必须是标识符并且不是关键字一个模块可以使用另一模块中所有全局变量,但使用前必须先导入导入模块import 模块名 — 导入指定模块,导入以后可通过’模块名.'方式使用其全局变量from 模块名 import 全局变量1,全局变量2,… — 导入指定模块后,可直接使用指定的全局变量from 模块名 import *

2021-07-29 17:41:43 103

原创 Python - 迭代器、生成器

Python - 迭代器、生成器迭代器什么是迭代器(iter)​ 迭代器是容器型数据类型,可以同时保存多个数据;可以被遍历也可以转换成列表或元组​ 打印迭代器时无法打印里面的元素;迭代器不支持len()操作​ 如需迭代器中的元素,必须将元素将迭代器中取出,而且一旦取出元素,这个元素在迭代器中就不存在了怎么创建迭代器​ 方式1:通过iter将其他序列转换成迭代器​ 方法2:创建生成器对象(生成器可以看成是一种特殊的迭代器)# 创建iter1 = ite

2021-07-29 17:27:57 108

原创 Python函数进阶

Python函数进阶匿名函数语法:变量(函数名) = lambda 参数列表:返回值相当于:def 函数名(参数列表):​ return 返回值注意:匿名函数只能实现用一代码就能完成功能的函数匿名函数在调用时与普通函数无区别匿名函数参数不支持用冒号语法来说明类型# 练习1:定义一个匿名函数求两数之和summary = lambda x1,x2 : x1 + x2print(summary(999,789)) #1788# 练习2:第一一个匿名函数获取指定数

2021-07-28 20:58:10 176

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除