数据挖掘
数据挖掘
Dragon Wu
千里之行始于足下
展开
-
Pandas 学习总结
一、数据结构1、创建series data = pd.Series([5, 4, 3, 2, 1]) data = pd.Series(np.arange(1, 6),index=['a','b','c','d','e']) dict = {"name": "Jack", "age": 12, "sex": "male"} data = pd.Series(dict, index=['name', "age", "sex"])2、获取series以及切片获..原创 2022-02-06 20:44:10 · 1527 阅读 · 0 评论 -
Seaborn 学习总结
依赖:import seaborn as snsimport numpy as npimport matplotlib.pyplot as pltimport pandas as pd样式sns.set_style(param,rc={}) 设置背景主题共有如下参数: param:white,dark,whitegrid,darkgrid,ticks 设置样式 rc={'font.family':"KaiTi"}设置为楷体,rc只能设置外形...原创 2022-02-05 19:33:40 · 983 阅读 · 0 评论 -
Numpy 学习总结
一、数组import numpy as np1、特殊数组 array_zeros = np.zeros((3, 3)) array_ones = np.ones((4, 4)) array_full = np.full((2, 3), 9) array_eye = np.eye(4)zero全零矩阵,ones全1矩阵,full(元组,数字)传入元组代表几行几列、数字代表都按该数字填充,eye行列数为某值的单位矩阵,斜角对称2、创建数组..原创 2022-02-03 20:50:51 · 1125 阅读 · 0 评论 -
Matplotlib 绘图总结
使用的依赖:import matplotlib.pyplot as pltimport numpy as npimport pandas as pdfrom matplotlib import font_manager # 引入字体if __name__ == '__main__': # 绘图函数 plt.show()1、折线图# 折线图1def line_chart_one(): y = [np.random.randint(0, 10) for..原创 2022-01-24 19:11:17 · 3761 阅读 · 0 评论 -
机器学习 业务逻辑 一般步骤 以及数据预处理的方法 (一)
有些业务并不需要分析矩阵的详细完整数据(比如图像边缘识别只需要分析出图像边缘即可),可以根据一个事先给定的阈值,用0和1表示特征值不高于或高于阈值。将样本矩阵中的每一列的最小值和最大值设定为相同的区间,统一各列特征值的范围。根据字符串形式的特征值在特征序列中的位置,为其指定一个数字标签,用于提供给基于数值算法的学习模型。为样本特征的每个值建立一个由一个1和若干个0组成的序列,用该序列对所有的特征值进行编码。1、数据收集(数据检索、数据挖掘、爬虫)3、评估模型(工具、框架、算法知识)1、选择模型(算法)原创 2022-09-24 14:48:37 · 834 阅读 · 0 评论 -
Numpy 获取某个值对应的数组索引
data = np.load("../resource.npy") print(data) data = np.argwhere(data == 1).flatten() print(data)结果:[0 0 1 0 0 0 0 1 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ...原创 2022-03-21 15:24:17 · 3393 阅读 · 0 评论 -
numpy 统计数组中大于某值数的个数
测试:import numpy as npa = np.random.randint(-5, 5, (1, 10))c=np.sum(a>=1) #条件为大于等于1print ("随机数组a : "+str(a)) #输出数组aprint ("大于等于1的个数: "+str(c)) #输出满足条件的个数结果:随机数组a : [[-1 2 4 1 -1 -5 -5 2 2 4]]大于等于1的个数: 6...原创 2022-03-15 14:11:57 · 13009 阅读 · 0 评论 -
机器学习Sklearn学习总结3——回归与聚类算法
一、线性回归线性回归与梯度下降对比的代码:from sklearn.datasets import load_bostonfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.linear_model import LinearRegression, SGDRegressorfrom sklearn.metric..原创 2022-02-22 10:23:40 · 1004 阅读 · 0 评论 -
机器学习Sklearn总结2——分类算法
一、转换器与估计器二、分类算法1、K-近邻算法KNN算法总结:优点:简单、易于理解、易于实现、无需训练缺点: 1)必须指定K值,K值选定不当则分类精度不能保证。 2)懒惰算法,对测试样本分类时的计算量大,内存开销大使用场景: 小数据场景,几千~几万条样本,具体使用看业务场景。案例代码:from sklearn.datasets import load_irisfrom sklearn.model_s...原创 2022-02-21 16:10:23 · 3665 阅读 · 0 评论 -
数据可视化echarts前端 学习总结
echart官网Apache ECharts一、简单的使用操作先找到官网的示例找到想要的模板,复制代码后,进行数据和样式的修改即可简单使用。..原创 2022-02-06 18:36:59 · 385 阅读 · 0 评论 -
sklearn 混淆矩阵分析pima 印第安人糖尿病数据
数据链接:FE_pima-indians-diabetes.csv · biabianm/pima-indians-diabetes - Gitee.comimport pandas as pdfrom sklearn.model_selection import train_test_split # 数据分离from sklearn.linear_model import LogisticRegression # 逻辑回归模型from sklearn import metrics # 准原创 2022-01-15 11:29:06 · 859 阅读 · 1 评论 -
数据预处理 一般操作
1、首先查看数据字段情况data = pd.read_csv(res.FILE_PATH['test'], encoding="utf-8")print(data.info())查看前几行数据data = pd.read_csv(res.FILE_PATH['test'], encoding="utf-8")print(data.head())2、查看字符串类型数字的具体数据类别 # 查看字符串类型数字的具体数据类别 data_types = data..原创 2022-01-13 11:04:04 · 597 阅读 · 0 评论 -
数据分析 一般方法
1、分类型数据统计(1)统计每个类别的数量# 统计每个类别的数量print(data['CATE_NAME_LV1'].value_counts().head(10))(2)查看每个数据类别占比# 查看每个数据类别占比print(data['CATE_NAME_LV1'].value_counts(normalize=True).head(10))2、数据型数据统计(1)对数据型数据进行分箱处理data = pd.cut(range(10), bins=5, .原创 2022-01-12 19:49:40 · 563 阅读 · 0 评论 -
pandas read_csv及读取后的相关操作
1、以某行为标头;读取部分列2、分块读取3、使用iterator来分块读取4、查看文件维度、尺寸大小等信息原创 2022-01-11 13:42:40 · 3415 阅读 · 0 评论 -
pandas 在excel里写入多个sheet
原创 2022-01-11 11:38:12 · 270 阅读 · 0 评论 -
pandas 添加一行全nan的数据
data_frame = data_frame.append({"DATA_MONTH": np.nan}, ignore_index=True)原创 2022-01-10 13:55:27 · 779 阅读 · 0 评论 -
python 拆分(几G)的tsv文件为较小的csv文件
# 拆分大tsv文件为小一些的csv文件# tsv_name: tsv文件对应的res名字# split_num: 拆分个数def split_data(tsv_name: str, split_num: int): splits_dir = f"./splits_{tsv_name}" if not os.path.exists(splits_dir): os.mkdir(splits_dir) with open(res.FILE_PATH[tsv_na.原创 2022-01-10 10:07:19 · 804 阅读 · 0 评论 -
python 获取数据量大的tsv文件的行数
由于数量量很大,所以一般的遍历方法耗时严重,所以我推荐使用迭代器来做: with open(res.FILE_PATH[tsv_name], encoding="gb18030", errors="ignore") as f: count = sum(1 for _ in f)可以看到迭代4503241行数据的耗时...原创 2022-01-09 18:13:04 · 778 阅读 · 0 评论 -
Python 读入大文件(几GB的tsv)采用分块可提高效率
最近对取一个几GB的tsv文件时发现特别的慢,代码如下: with open(res.FILE_PATH['06'], 'r', encoding="gb18030", errors="ignore") as file: csv.field_size_limit(500 * 1024 * 1024) data = pd.DataFrame(csv.reader(file.readlines(500000000), delimiter="\t"))原创 2022-01-09 15:51:25 · 660 阅读 · 0 评论 -
数据分析 pandas库常用操作 (下)
目录1、批量拆分和合并Excel文件2、pandas实现groupby分组统计这里续(中)1、批量拆分和合并Excel文件拆分:def pandas_handle_excel(): work_dir = "./workMerge" splits_dir = f"{work_dir}/splits" ######################### # 拆分 import os if not os.path.exists(split原创 2022-01-05 19:44:44 · 1422 阅读 · 0 评论 -
数据分析 pandas库常用操作 (中)
1、如何避免SettingWithCopyWarning2、pandas数据排序3、字符串处理4、pandas的axis参数的理解5、pandas的index索引的理解6、pandas的merge归并dataFrame简介7、pandas的concat合并dataFrame简介这里续(上)的内容1、如何避免SettingWithCopyWarningdef pandas_warn_deal(): df = pd.read_excel("./testData.xl原创 2022-01-05 13:48:44 · 2601 阅读 · 0 评论 -
数据分析 pandas库常用操作 (上)
目录1、读取文件2、Series3、DataFrame4、pandas查询数据5、新增数据6、统计数据7、数据清洗使用pandas库首先导入:import pandas as pd1、读取文件def pandas_handle_csv(): path = "./tips.csv" # 读取文件 ratings = pd.read_csv(path) # 查看前几行数据 print(ratings.head())原创 2022-01-04 21:50:30 · 1600 阅读 · 2 评论