Python 数据分析 | 机器学习 必备

本文介绍了Python编程中的核心模块如math、Anaconda、numpy、pandas等,详细讲解了数据分析中的数学函数、工具使用、数据处理、可视化、机器学习基础、数据库操作(MySQL、Hive)以及时间日期处理。还包括了Linux基础命令和Excel公式速查。
摘要由CSDN通过智能技术生成

相关文档查找


Python标准库中文文档:

        http://www.opython.com/docs/python/3.8/library/index.html

Python 第三方库官方地址:

        https://pypi.org/

Python 第三方库 whl 文件下载地址:

        https://www.lfd.uci.edu/~gohlke/pythonlibs/

Python 基础合集 2023-08-10


Python 数据分析必备


Python math模块:数学函数功能详解

      基础数学函数计算功能;包括表示函数、三角函数、幂函数、对数函数、角度和弧度的转换、双曲函数、伽马函数、常数的表示等。

Python 开发工具Anaconda功能介绍

    python数据分析必备的软件功能简介,集成了IPython、jupyter notebook 、spyder等解释器,还提供了虚拟环境管理的功能。

Python numpy模块功能详解

      数据分析基础第三方库,numpy数组的计算。

Python pandas模块(一): Series数据类型介绍

      pandas.Series数据类型创建、使用。

Python pandas模块(二): DataFrame类型详解

    pandas.DataFrame数据类型创建、使用,dataframe基本属性介绍。DataFrame是后续计算分析和机器学习的基础,数据处理基本上都是把数据读取为DataFrame之后再进行各种加工处理。

Python pandas模块(三): 使用pandas进行简单数据处理

      pandas对数据进行预处理。包括数据加载(读取);数据清洗(缺失值处理、无效异常值处理、重复值处理、唯一值处理等);数据过滤方法(条件获取、query方法);数据转换(基本运算、map映射、applymap运算、替换);数据矢量化运算;数据集合并的方法(merge、join、concat、append)。

Python pandas模块(四): MultiIndex多层索引

      多层索引设置;索引转换;索引排序 sort_index;索引堆叠 stack ;设置索引 set_index 和 reset_index。

Python panda模块(五): groupby分组聚合
      groupby分组;groupby之后的迭代输出;分组聚合功能;分组对象的属性和方法;分组方式;agg聚合;分组聚合中apply的使用。

Python pandas模块思维导图

      pandas飞书思维导图

Python pandas数据分析基础100问(有重复)

      pandas基础100问,问题来自B站视频

Python matplotlib 数据可视化

      matplotlib可视化基础用法

scikit-learn常用算法

      如何成为一个sklearn调包侠

Python时间日期处理datetime模块

        datetime模块功能解析。结合pandas常用小工具。


机器学习


一起啃西瓜书:《机器学习》西瓜书学习笔记

《机器学习实战》笔记:《机器学习实战》学习笔记,Python实现机器学习基础算法;


数据库


MySQL

MySQL(一) 安装、基本概念

      mysql安装教程;mysql基本概念:运算符、数据类型、约束条件。

MySQL(二)增删改查(CRUD)

      mysql数据库增删改查基础语法;账户管理、数据库命令、表命令、备份与恢复、执行计划;数据插入与删除;数据修改(更新);查询语句;分组聚合;排序;表连接;字符串函数;数学函数;时间函数。

MySQL(三)事务、锁、存储过程

事务(特性:原子性、一致性、隔离性、持久性,事务语句);锁(MySQL的锁机制、排他锁、共享锁);存储过程(存储过程、存储函数、触发器);MySQL优化思路。

MySQL(四)Python操作MySQL数据库

准备工作(安装必备第三方包);创建连接对象(创建对象、对象的方法);游标对象(创建对象、对象的方法、对象的属性);使用python对MySQL进行增删改查示例;增删改查封装;Python数据库连接池。

MySQL(五)pandas实现mysql数据库的导入导出

        python + pandas 实现MySQL数据的批量导入导出

                1、将sql查询结果导出为文件;

                2、将sql查询结果转为DataFrame;

                3、数据文件导入到MySQL;

                4、DataFrame数据集导入到MySQL;

                5、执行样例

Hive

Hive常用字符串处理方式

        字符串长度(length);字符串反转(reverse);字符串拼接(concat);字符串截取(substr, substring);小写字母转大写(upper, ucase);大写字母转小写(lower, lcase);去除空格(trim, ltrim, rttrim);正则(regexp_replace, regexp_extract);URL解析(parse_url);json解析(get_json_object);空格(space);重复(repeat);ASCII码(ascii);补足(lpad, rpad);字符串分割(split);集合中查找(find_in_set)。

HIVE SQL笔记

        《Hive 编程指南》学习笔记。


小杨笔记


【python 时间处理】datetime、time、date

        datetime、time、date模块对时间日期数据处理方式;pandas模块对时间格式数据加工方法。

【python 小工具】生成等差数列、等比数列;警告与报错;保存模型

        使用python生成等差数列、等比数列,各种方法的区别;如何处理警告和程序报错问题;使用sklearn训练好模型之后,如何将模型保存下来。

【python pandas】提取行列、修改列名

        pandas提取dataframe中的行和列,甚至是单元格,loc\iloc方法;dataframe重新设置列名或是仅修改一两个字段名。

【python pandas】合并dataframe数据集

        pandas合并dataframe的几种方法:merge、concat、append、join;多个Serise合并成DataFrame。

【pandas】分组聚合groupby的用法

        使用groupby做分组聚合计算。

【python】创建路径、excel同时写入多个sheet表、手机号解析

        os模块创建文件目录;pandas批量将多个数据集写入到多个sheet表中;手机号码解析出运营商信息(手机号注册省、市、运营商、区域邮编、区域编码)。

【pandas】重塑、透视、交叉:stack,unstack,pivot,pivot_table,crosstab

        stack和unstack多层索引的堆叠和拆堆;pivot表格重塑;pivot_table数据透视表;crosstab数据交叉表。

【数据预处理 标准化】StandardScaler中的std参数和pandas中的std计算方式上的区别

        numpy中std方法和pandas中std方法的区别。

正则表达式以及在python中的使用

        正则表达式思维导图;在python中使用正则表达式的方法。

Linux 基础命令速查

    • 文件目录;

    • yum命令:显示 yum 仓库,安装程序包,查看文件来源,包组相关的命令;

    • 文件详解:普通文件、目录文件、连接文件和特殊文件;一般属性,文件访问权限;

    • 常用命令:系统信息,关机重启注销,文件和目录,文件搜索,文件的权限,文件的特殊属性,查看文件内容,文本处理,挂载一个文件系统,磁盘空间,用户和群组,打包和压缩文件,RPM包管理工具,YUM包管理工具,DPKG包管理工具,APT 软件工具,字符设置和文件格式转换,文件系统分析,初始化一个文件系统,SWAP文件系统,备份,光盘,网络和进程管理,常见系统服务命令;

Excel 常用公式速查

    • 查找 & 匹配:vlookup,hlookup,lookup,match,index,find,search;

    • 文本提取:left,mid,right;

    • 文本替换:substitute,replace,删除所有数字,删除所有字母,电话号码升位,trim / ltrim / rtrim;

    • 大小写转换:upper,lower,proper;

    • 字符串长度:len,lenb,提取姓名;

    • 格式自定义:text;

    • 字符串拼接:& 符号,concat / concatenate,textjoin

    • 文本填充:rept;

    • 逻辑运算:exact,= 等号,if,ifs,countif,countifs,and,or;

    • 数学运算:mo,isodd,iseven,count,counta,countblank,sum,sumif,sumifs,average,averagea,averageif,averageifs,stdev,round,sqrt,trunc,int,randbetween,rand,product,sumproduct,sumsq,sumx2py2,sumx2my2,sumxmy2,max,min,row,column,offset,subtotal;

    • 数据库函数:dsum,dget;

    • 日期处理:today(),now(),datedif,days,year,month,day,date,weekday;

    • 排序:rank;

    • 通配符:? 问号,* 星号;

    • 错误值类型;

    • excel函数常用参数;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值