python
leewe7
这个作者很懒,什么都没留下…
展开
-
numpy中的lstsq(最小二乘法)函数
Numpy中的最小二乘法原创 2023-03-07 09:49:50 · 789 阅读 · 0 评论 -
numpy矩阵的常见操作
numpy矩阵的常用操作原创 2023-03-01 17:00:31 · 205 阅读 · 0 评论 -
python partial函数
partial的**kwargs应用场景:def a(x,**kwargs): print(x) print(kwargs.get("a"))from functools import partialdef hi(x,**kwargs): aa = partial(a,**kwargs) aa(x)调用hi("7",a="ok")原创 2021-12-28 18:36:39 · 220 阅读 · 0 评论 -
java调用PMML模型文件
生成模型from sklearn2pmml import PMMLPipelinefrom sklearn.datasets import load_irisfrom sklearn import treeiris = load_iris()clf = tree.DecisionTreeClassifier()pipeline = PMMLPipeline([("classifier", clf)])pipeline.fit(iris.data, iris.target)print(ir原创 2021-06-09 17:35:58 · 1975 阅读 · 0 评论 -
python matplotlib 系列
折线图# 正弦函数x = np.linspace(0,10,100)y = sin(x)plt.plot(x,y,label='正弦函数')plt.legend() #显示标签原创 2021-02-25 09:52:28 · 71 阅读 · 0 评论 -
鸢尾花数据集-数据分析
from sklearn import datasetsimport pandas as pdimport matplotlib.pyplot as pltimport numpy as np# 获取鸢尾花数据集lris_df = datasets.load_iris()# 输入特征lris_df.data# 目标特征lris_df.targetdata_DF = pd.DataFrame(lris_df.data)target_DF = pd.DataFrame(lris_d原创 2020-10-16 18:21:41 · 1470 阅读 · 1 评论 -
特征工程之OneHot独热编码
如果有离散特征,如[‘Arsenal’,‘ManCity’,‘Liverpool’],将它们转换为数字表示更好[0,1,2]即使转化为数字表示后,上述数据也不能直接用在很多的分类器中。因为,分类器数据往往是连续的、有序的。但是,按照我们上述的表示,数字并不是有序的,而是随机分配的。使用OneHot就可以解决此类问题其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。例如拥有六个状态的属性独热编码为:000001,000010,000100原创 2020-10-12 10:57:47 · 387 阅读 · 0 评论 -
数据处理之缺失值填充-Python实现
import pandas as pdimport numpy as nptest_dict = {'id':[1,2,3,4,5,6], 'counts':[1,2,None,1,4,5], 'amounts':[54,49,None,52,None,50] }test_df = pd.DataFrame(test_dict)#指定值填充test_df['counts'] = test_df['counts'].fillna(12)#均值填充原创 2020-10-10 18:19:20 · 562 阅读 · 0 评论 -
数据处理之标准化-python代码示例
本文使用python实现max-max和z-score两种标准化方法import pandas as pdimport numpy as nptest_dict = {'id':[1,2,3,4,5,6], 'num':[1,2,1,1,4,5], 'total':[54,49,51,52,51,50] }test_df = pd.DataFrame(test_dict)# min-max标准化归一方法def minMaxScale(data):原创 2020-10-10 17:23:28 · 3318 阅读 · 0 评论 -
数据处理之随机抽样-Python实现
有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。随机抽样,是指随机从数据中,按照一定的行数或者比例抽取数据。 python代码示例import numpy as npimport pandas as pdtest_dict = {'id':[1,2,3,4,5,6], 'name':['Alice','Bob','Kaka','Raul','Fabregas','Grace'] }test_df = pd.DataFr.原创 2020-10-09 18:27:56 · 1937 阅读 · 0 评论 -
python中文关键词提取
from pyspark.conf import SparkConffrom pyspark.sql import SparkSessionimport numpy as npimport pandas as pdfrom datetime import datetimefrom datetime import datefrom datetime import timedeltafrom gensim import corpora,models,similaritiesfrom collec原创 2020-09-27 16:49:38 · 506 阅读 · 0 评论 -
pandas报错:A value is trying to be set on a copy of a slice from a DataFrame 解决方案
pandas使用索引+列名修改元素值报错:df.loc[0]['keywords']='key'A value is trying to be set on a copy of a slice from a DataFrame解决办法:使用 DafaFrameming.loc[索引,列名]=‘value’ 的方式处理:df.loc[0,'keywords']='key'...原创 2020-09-02 11:27:20 · 1223 阅读 · 2 评论