python数据分析总结
文章平均质量分 72
包括Python基础,数据库,机器学习等与数据分析相关的知识点总结
大地之灯
这个作者很懒,什么都没留下…
展开
-
DataFrame:postgresql数据下载及上传
【代码】DataFrame:postgresql数据下载及上传。原创 2024-03-22 10:47:02 · 338 阅读 · 0 评论 -
DataFrame:依条件进行数据抽取
抽取符合条件的数据(我这里某种分类的数据条数大于1000)作为新的数据集,原来的数据集删除抽取的部分。原创 2023-03-24 17:52:32 · 794 阅读 · 0 评论 -
DataFrame:判断两列数据是否相等
【代码】DataFrame:判断两列数据是否相等。原创 2023-02-27 10:56:49 · 1133 阅读 · 0 评论 -
DataFrame:两列数据生成字典
两种方法:set_index+to_dict();原创 2022-11-16 11:16:09 · 2272 阅读 · 2 评论 -
DataFrame:获取groupby分组结果
细节:只有DataFrame可以使用reset_index,所以groupby后要花式索引保证结果符合要求。目标是获取groupby包含index在内的结果。方法是使用reset_index。原创 2022-11-16 10:31:41 · 944 阅读 · 0 评论 -
关于 DataFrame:多Sheet Exceld的保存和读取
DataFrame:多Sheet Exceld的保存和读取。原创 2022-09-22 09:58:21 · 576 阅读 · 0 评论 -
关于 DataFrame :制作训练集:匹配关键词打标签,合并数据
pandas 根据关键词筛选数据集,并匹配id生成训练集原创 2022-07-13 18:19:38 · 416 阅读 · 0 评论 -
关于 DataFrame: 处理json数据(re模块,concat...)
pandas json re原创 2022-07-12 17:55:51 · 945 阅读 · 0 评论 -
关于DataFrame: 找出有空值的行
找出有空值的行原创 2022-07-09 17:51:29 · 2173 阅读 · 0 评论 -
关于DataFrame 添加行的总结
dataframe 添加行总结原创 2022-07-04 18:07:16 · 614 阅读 · 0 评论 -
机器学习复习:数据处理分析小练习 | 导包
目录一.小练习1二.小练习2三:欠采样四.导包基础导入机器学习方法总结线性回归,线性分类KNNKMeans贝叶斯决策树支持向量机集成学习方法序列学习方法特征选择Filter 基于方差选择WrapperEmbeded基于惩罚项的特征选择法基于树模型的特征选择法区间缩放标准化归一化对定量特征二值化对定性特征哑编码PCALDA网格搜索交叉验证集成学习回归器性能评估import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%mat原创 2022-04-28 22:31:57 · 1713 阅读 · 0 评论 -
机器学习:降维复习
非原创,代码来自葁sirimport numpy as npimport pandas as pdfrom pandas import Series,DataFrameimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inlinefrom sklearn.datasets import load_irisX, y = load_iris(return_X_y=True)X.shape(150, 4)原创 2022-04-22 09:48:41 · 1312 阅读 · 0 评论 -
机器学习:特征工程补充
非原创,代码来自葁sirimport numpy as npimport pandas as pdfrom pandas import Series,DataFrameimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inlinefrom sklearn.datasets import load_irisiris = load_iris()data = iris.datatarget = iris.tar原创 2022-04-22 09:45:36 · 345 阅读 · 0 评论 -
机器学习:stacking复习
非原创,代码来自葁sirimport numpy as npimport pandas as pdfrom pandas import Series,DataFrameimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inline# 导入stackingfrom sklearn.ensemble import StackingClassifier,StackingRegressor# StackingCla原创 2022-04-22 09:31:42 · 269 阅读 · 0 评论 -
机器学习:begging复习
非原创,代码来自葁sirimport numpy as npimport pandas as pdfrom pandas import Series,DataFrameimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inline# 使用波士顿房价数据集进行实验from sklearn.datasets import load_boston# 导入baggingfrom sklearn.ensemble i原创 2022-04-22 09:27:30 · 570 阅读 · 0 评论 -
机器学习:boosing复习
import numpy as npimport pandas as pdfrom pandas import Series,DataFramefrom sklearn.ensemble import AdaBoostRegressor,GradientBoostingRegressor# Ada的回归& GBDT的回归from sklearn.datasets import load_boston# 波士顿房价from sklearn.neighbors import KNei原创 2022-04-22 09:16:55 · 1389 阅读 · 0 评论 -
决策树算法(手撕)
以前照着别人的边敲边调试的,没怎么整理,有点乱import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom math import logimport mathimport operatorimport sys# !pip install treePlotterdef createDataSet(): dataset = [ [1,1,'yes'], [1,1,原创 2022-04-21 09:22:45 · 1293 阅读 · 0 评论 -
机器学习实战:鲍鱼回归分析(回归方法总结)
import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inlinedata = pd.read_csv('./data/abalone.txt', header=None, sep='\t' )data.head() 0 1原创 2022-04-21 09:15:50 · 978 阅读 · 0 评论 -
机器学习:美国50K工资分类(改)
目录1.观察并导入数据2. 处理数据2.1探索数据(对df进行数据探索,df为将'?' 替换为np.nan 的数据集,clean_df 为删除了'?'所在行的数据集)2.2缺失值情况分析2.3数据处理 及特征工程2.4 划分数据集2.5 训练1.随机森林2 SVM 支持向量机3 逻辑回归4 Adaboost5 GDBT6 XGB之前写过一次,这篇是再修改版本(前版本)1.观察并导入数据import numpy as npimport pandas as pdimport matplotlib.py原创 2022-04-16 11:49:04 · 2433 阅读 · 0 评论 -
机器学习:考试预测实战(特征隐射,独热编码,特征重要性选择,网格搜索调参)
声明:内容非原创,代码来自葁sirimport numpy as npimport pandas as pdfrom pandas import Series,DataFramefrom sklearn.model_selection import train_test_splitfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.tree import DecisionTreeClassifierfrom sklea原创 2022-04-15 08:33:14 · 1756 阅读 · 0 评论 -
机器学习实战:小麦种子(封装函数进行调参、标准化、绘图查看数据分布)
声明:内容非原创,代码来自葁sirimport numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inline# 导入数据集seeds = pd.read_csv('data/seeds.csv',sep = '\t',header = None)seeds.head() 0 1 2 3 4原创 2022-04-15 08:22:53 · 2043 阅读 · 2 评论 -
逻辑回归与梯度下降复习
目录逻辑回归逻辑斯蒂回归的概率预测梯度下降声明:内容非原创,是学习内容的总结,版权所属姜老师逻辑回归# 虽然叫回归,但是本质上是一个分类算法,可以解决多分类的问题,也可以输出回归的概率性结果from sklearn.linear_model import LogisticRegressionfrom sklearn.datasets import make_blobsX, y = make_blobs(n_samples=150, n_features=2, centers=3)X.s原创 2022-04-08 17:40:33 · 1727 阅读 · 0 评论 -
线性回归复习:普通线性回归,knn线性回归,岭回归,lasso回归
目录线性回归引入knn线性回归(糖尿病数据集)找到一个更好的模型(knn调参,评价(MAE,MSE))岭回归岭回归的基本使用糖尿病的回归分析lasso回归线性回归引入# 线性回归导入from sklearn.linear_model import LinearRegressionfrom sklearn.neighbors import KNeighborsRegressorimport numpy as np import pandas as pdfrom pandas import Se原创 2022-04-08 17:13:12 · 2192 阅读 · 0 评论 -
KMeans 算法复习
目录1.关于聚类聚类的基本使用球队综合实力聚类分析2.kmeans中常见的错误a. k值的不合理不合适b. 数据存在偏差 (必然存在)c. 标准偏差不相同cluster_stdd. 样本数量不同e. 使用轮廓系数来判断聚类的效果1.关于聚类import pandas as pdimport numpy as npfrom pandas import Series,DataFrameimport matplotlib.pyplot as pltimport seaborn as sns%mat原创 2022-04-06 17:17:23 · 2365 阅读 · 0 评论 -
KNN 算法复习总结
目录鸢尾花数据集的分类练习鸢尾花数据集的分类练习# -------------------------------------------------------- 复习import sklearnimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltdata_iris = sklearn.datasets.load_iris()data_iris展开查看 {'data': array([[5.原创 2022-04-06 10:29:47 · 1003 阅读 · 0 评论 -
概率论与数理统计(知识点概览)
目录一. 概率论部分随机事件和概率1.古典概型2.几何概型3.事件的概率4.事件的独立性5.条件概率6.全概率公式7.贝叶斯公式二. 数理统计部分参考资料来自B站“猴博士爱讲课系列”这里一. 概率论部分随机事件和概率1.古典概型2.几何概型3.事件的概率4.事件的独立性5.条件概率6.全概率公式7.贝叶斯公式二. 数理统计部分...原创 2022-03-30 14:42:27 · 8527 阅读 · 0 评论 -
机器学习KNN-应用:手写数字识别(手撕+sklearn实现)
目录参考链接import pandas as pdimport numpy as npimport matplotlib.pyplot as plt# 数据集的导入from sklearn.datasets import load_digitsload_digits(){'data': array([[ 0., 0., 5., ..., 0., 0., 0.], [ 0., 0., 0., ..., 10., 0., 0.], [ 0.原创 2021-07-11 18:51:51 · 1096 阅读 · 0 评论 -
机器学习实战 美国50K工资分类
目录1. 导入数据2. 处理数据2.1缺失值处理2.2 探索数据(对df进行数据探索,df为将'?' 替换为np.nan 的数据集,clean_df 为删除了'?'所在行的数据集)2.3 缺失值情况分析2.4 数据处理 及特征工程3. 训练3.1 划分数据集1.随机森林2 SVM 支持向量机3 逻辑回归4 Adaboost5 GDBT6 XGB参考:数据处理 https://cloud.tencent.com/developer/article/1338337数据分析 https://zhuanlan原创 2021-06-24 17:42:13 · 1714 阅读 · 0 评论 -
机器学习 day7 kmeans 聚类算法
#准确的客户分类的结果是企业优化营销资源的重要依据,本文利用了航空公司的部分数据,利用Kmeans聚类方法,对航空公司的客户进行了分类,来识别出不同的客户群体,从来发现有用的客户,从而对不同价值的客户类别提供个性化服务,指定相应的营销策略。# coding=utf-8import pandas as pdimport numpy as np#忽略报警import warningswarnings.filterwarnings("ignore")#读取原始数据,指定UTF-8编码(需要用文本编原创 2021-06-15 10:46:29 · 293 阅读 · 1 评论 -
机器学习 文本处理,贝叶斯分类(8.2 补充了pkuseg分词库的使用)
目录jieba分词安装库导入库使用:jieba.lcut() / jieba.lcut_for_search()(返回值类型是list)练习:给定分割词典:a.进行分割 b.去掉停用词朴素贝叶斯-文本分类器导入数据并预处理成列表形式文本文件分词并打标签,将文件整合到同一个list里面。(重点)训练集,测试集划分导入朴素贝叶斯用到的库词频计数矩阵 CountVectoriz多项式朴素贝叶斯TF-IDF 词频逆词频结合补集朴素贝叶斯作业:京东口红评价分类补充:条件概率:朴素贝叶斯import pandas a原创 2021-06-09 23:46:45 · 451 阅读 · 3 评论 -
机器学习 day5 & day6 分类问题实战:判断是否为羊毛党
判断是否为羊毛党合并用户表和现金表,过滤掉没有钱包事件的用户合并总表取出有用的列修正时间格式将表分开成羊毛党用户(invalid)的行为和非羊毛用户(valid)的行为数据探索同parentID下的用户操作时间对比同parentID下的子用户数不同用户的操作间隔不同用户的钱包金额构造模型需要的特征特征1,'amount' 用户钱包操作的最大金额特征2,'coinType' 是否是silver特征3,'isPayOneForLevelTwo' 是否为1特征4,'sisters' ,同parentId下的用户数原创 2021-06-08 14:37:48 · 492 阅读 · 0 评论 -
机器学习 决定系数R^2
目录相关资料汇总相关资料汇总概念及公式补充说明相关系数r 与 决定系数R^2原创 2021-06-07 03:17:35 · 666 阅读 · 0 评论 -
机器学习 day4 决策树应用,验证,调参;多种回归比较
目录1. 决策树的应用:kaggle 泰坦尼克号生还者预测导入数据并观察清洗数据筛选特征及编码划分数据集导入模型计算验证(交叉验证法)调参:网格搜索 Grid_Search利用分类器分类:2. 随机森林测试不同深度该随机森林分类器的表现:交叉验证法利用网格搜索调参(比较耗时间,大概10分钟左右):3. 多种回归比较(boston数据集)回归树随机森林回归岭回归多项式回归1. 决策树的应用:kaggle 泰坦尼克号生还者预测数据集特征介绍:PassengerId:乘客的ID号,这是个顺序编号,用来唯一地原创 2021-06-04 09:41:19 · 1030 阅读 · 1 评论 -
机器学习 day3 决策树算法
决策树算法1. 目的2. 优缺点3. 信息熵 entropy计算方法:导库:导数据集:首先计算原本的信息熵:计算色泽特征下的信息熵:取数据集D1 D1为色泽=青绿的数据子集取子集D2 D2 为色泽=乌黑的数据子集取子集D3 D3为色泽=浅白的数据子集计算色泽特征的信息熵:封装计算特征信息熵的函数:结果:选择纹理作为根节点(信息熵小,信息增益就大)4. sklearn 中的决策树1. 目的通过历史数据计算,得到一颗决策树2. 优缺点优点易于理解:即使对于非分析背景的人来说,决策树输出也很容易理原创 2021-06-03 07:56:27 · 219 阅读 · 0 评论 -
机器学习 day2 线性回归
线性回归导三方库:导入数据集数据预处理检查数据相关性数据的标准化标准化数据:数据的0-1缩放线性回归(标准化之后的)线性回归(0-1缩放之后的)模型评估(标准化之后的)计算回归误差决定系数:R^2模型评估(0-1缩放之后的)作业:处理波士顿房价数据集导三方库:import pandas as pd import numpy as np import matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.datasets impo.原创 2021-06-02 08:39:19 · 180 阅读 · 0 评论 -
机器学习day1 kNN 算法学习与应用
kNN 算法学习与应用导入库1.kNN算法k-Nearest Neighbor应用:制作样本集作图观察数据预测调用sklearn库中kNN算法解决问题2.在鸢尾花数据集上的应用2.1数据集介绍2.2应用导入库import sklearnimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.u原创 2021-05-31 20:21:07 · 206 阅读 · 1 评论 -
每日一题 第二次考试 数据库题目,7.17数据库面试题目补充
MySQL数据库根据下面提供的四张二维表的结构,完成后面的题目。用户表:`tb_user`+----------+-------------+------+-----+---------+----------------+| Field | Type | Null | Key | Default | Extra |+----------+-------------+------+-----+---------+----------------+| use原创 2021-05-21 09:37:15 · 243 阅读 · 1 评论 -
Python 数据分析 git 工具使用 & flask学习
git工具使用gitgitee 免密登录pycharm 上使用gitgit软件控制管理 ------> 版本控制 ------> 管理产品文件(代码、文档、脚本、设计稿等)的各个历史版本1990s —> CVS / VSS —> 锁定模式2000 —> Subversion —> SVN —> 合并模式 —> 中央服务器2005 —> Git —> 去中心化的版本控制系统 —> 分布式版本控制系统Unix —> Oracl原创 2021-05-13 19:08:40 · 735 阅读 · 3 评论 -
python 数据分析day4 Pandas 之 DataFrame
DataFrame一. 创建DataFrame1. 二维数组创建2. 字典创建3. JSON创建4. 读取Excel或CSV文件创建5. 读数据库(MySQL)创建二. 常用属性三. 基本方法3.1汇总方法3.2处理索引et_index() / reset_index()方法:设置索引/重置索引,两个相当于是逆操作。四. 获取数据1.索引和切片2.数据筛选布尔索引query()方法filter()方法补充:添加一列/行随机抽样练习:科比投篮数据分析重塑数据五. 处理数据数据清洗数据删除数据转换六. 数据分原创 2021-05-08 21:17:18 · 2893 阅读 · 8 评论 -
一文弄懂apply、map和applymap三种函数的区别
转载自https://baijiahao.baidu.com/s?id=1664472696860188894CDA数据分析师 出品在日常处理数据的过程中,会经常遇到这样的情况,对一个DataFrame进行逐行、逐列或者逐元素的操作,很多小伙伴也知道需要用到apply、map或者applymap,但是具体什么情况下运用哪种方法或者说对这些方法了解不够,用起来晕晕乎乎始终没有很明白,希望这一篇文章能够帮助有需要的小伙伴弄懂他们之间的区别,并且在遇到问题的时候能够很清楚明白用哪个以及该怎样使用。闲话少叙,我们转载 2021-05-08 20:12:38 · 518 阅读 · 1 评论