![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
代码
智商25的憨憨
这个作者很懒,什么都没留下…
展开
-
Sklearn 中 OneHotEncoder 解析
将离散型特征使用one-hot编码,会让特征之间的距离计算更加合理。离散特征进行one-hot编码后,编码后的特征,其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样,对每一维特征进行归一化。from sklearn.preprocessing import OneHotEncode参数:OneHotEncoder(n_values=’auto’, categorical_features=’all’, dtype=<class ‘numpy.float.原创 2020-06-23 21:36:29 · 3771 阅读 · 0 评论 -
python数据分析 生成词云图、jieba分词 从最简单的数据集入门
#词云图尝试import numpy as npimport pandas as pdfrom wordcloud import WordCloudimport PIL.Image as imageimport csvwind_sky = pd.read_csv('datadatadata1.csv',usecols = [5],header=None)print(wind_sky)print(type(wind_sky))wind_sky_list = []filename = '.原创 2020-06-13 17:11:30 · 1682 阅读 · 0 评论 -
sklearn实现k-means聚类算法(气温数据集)matplotlib可视化
只是做个测试,最终聚类出来的信息实际应用意义不大。大家可以用sklearn中的兰花数据集进行测试,。我的数据集样式如下:import numpy as npfrom sklearn.cluster import KMeansimport matplotlib.pyplot as pltimport pandas as pdx_sky_train = pd.read_csv('datadatadata1.csv',usecols = [2,3],header=None)#将读取的.原创 2020-06-13 13:50:15 · 3231 阅读 · 1 评论 -
Pandas的DataFrame转成Numpy的数组形式
生成df:import numpy as npimport pandas as pdindex = [1, 2, 3, 4, 5, 6, 7]a = [np.nan, np.nan, np.nan, 0.1, 0.1, 0.1, 0.1]b = [0.2, np.nan, 0.2, 0.2, 0.2, np.nan, np.nan]c = [np.nan, 0.5, 0.5, np.nan, 0.5, 0.5, np.nan]df = pd.DataFrame({'A': a, 'B':原创 2020-06-13 13:45:24 · 3655 阅读 · 0 评论 -
sklearn逻辑回归实现乳腺癌数据集二分类预测
#逻辑回归实现之前的乳腺癌数据集分类预测from sklearn import datasetsfrom sklearn.cross_validation import train_test_splitfrom sklearn.linear_model import LogisticRegressioncancer =datasets.load_breast_cancer()cancer_X=cancer.dataprint(cancer_X.shape)cancer_y=cancer.t.原创 2020-06-12 21:41:47 · 4528 阅读 · 0 评论 -
将两个2*1的矩阵合并成一个2*2的矩阵 python代码
其实很简单,只需要调用numpy中的函数即可原创 2020-06-12 21:30:17 · 2379 阅读 · 0 评论 -
pandas读取csv文件
原始数据:import pandas as pdcsv=pd.read_csv('test.csv')print(len(csv)) #结果是12,证明length是csv的行数#读取第一、二列csv1=pd.read_csv('test.csv',sep=',',usecols=[0,1])参数sep:str, default ‘,’指定分隔符。如果不指定参数,默认使用逗号分隔。usecols: array-like, default None返回一个数据子集,该...原创 2020-06-12 17:41:47 · 829 阅读 · 0 评论 -
Numpy
1.使用numpy读取TXT数据:genfromtxt():2.当于一个函数不了解时,可以打印函数帮助文档(并不只针对numpy,任何函数都可以这样查看)print(help(numpy.genfromtxt))3.numpy.array([1,2,3,4]):可以用来构造数组(一维、多维...);一旦改变列表中的一个数的数据类型,其余数据也会自动随着改变,如现在给4加一个.0,则前面三个数也会变成1.0、2.0、3.0 数据类型都随之变为float类型。所以要保证array()里面传进原创 2020-06-12 11:32:51 · 167 阅读 · 0 评论 -
图像灰度化
"""灰度化将彩色图片变为黑白图片,转化前图片的数组值为3维,转化后为2维"""from PIL import Imageimport numpy as np#打开一张图片img = Image.open("imageplace/1.jpg")#图片灰度化img = img.convert("L")#显示图片img.show()#将图片转换为数组形式。元素为其像素的亮度值print(np.asarray(img))#此时打印出的数组行列数就是图片的像素宽度和高度。...原创 2020-06-12 10:43:25 · 272 阅读 · 0 评论 -
VGG16提取图片特征
import osimport numpy as npimport torchimport torch.nnimport torchvision.models as modelsfrom torch.autograd import Variableimport torch.cudaimport torchvision.transforms as transformsfrom PIL import ImageTARGET_IMG_SIZE = 224img_to_tensor = .原创 2020-06-12 10:27:27 · 5267 阅读 · 2 评论 -
爬取12个月天气数据/csv数据去除符号并转存为新的csv/绘出最高气温与最低气温折线图并显示在一个表里面
纪念一下搞出来的一个东西,不过都是参考网上的,只懂一些表面的,不会深层的东西,欢迎批评指正1.爬取2019年7月到2020年6月阜阳地区的天气:#爬取气温代码months = []for year in (2019,): for month in range(6,12): months.append("%d%02d"%(year, month+1))for year in (2020,): for month in range(0,6): mo原创 2020-06-10 11:31:07 · 1766 阅读 · 2 评论 -
数据集的预处理(词替换、多余符号与空格正则化去除)——读取json数据集以及预处理之后再生成json文件 的代码
数据集较为庞大 ,这里只做一个示例import codecsimport reimport jsonwith open('train_pub.json','rb') as f: datatrain = json.load(f)# 数据预处理# 预处理名字def precessname(name): name = name.lower().replace(' ', '_') name = name.replace('.', '_') name = name.原创 2020-06-05 20:45:32 · 613 阅读 · 0 评论 -
TF-IDF算法详解及sklearn代码实现
目录1.基本介绍(1)TF(词频 Term Frequency)(2)IDF(逆向文件频率 Inverse Document Frequency)(3)TF-IDF=TF*IDF代码实现:(1)sklearn代码实现(2)Jieba实现TF-IDF算法1.基本介绍定义:TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文本频率)。TF指词频,IDF指的是逆文本频率。TF-IDF是一种用于信息检索与数据挖掘的常.原创 2020-06-04 15:01:54 · 8166 阅读 · 1 评论 -
聚类算法之——DBSCAN密度聚类详解及sklearn包中的DBSCAN算法代码实现
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算法。 该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。西瓜书上对它的解释:核心对象定义:密度直达定义:密度可达:密度相连:上面几种关系的直观图示如下:如...原创 2020-06-03 21:57:31 · 3082 阅读 · 0 评论 -
为啥说python中一切皆对象?
首先对象的概念:对象是编程语言中相对独立的实体,它可以被调用、赋值或者作为参数供函数使用。python不仅仅向面向对象的Java一样支持对象的使用,还在这条路上走的更远:程序由方法和数据构成,Python中不仅各项数据都是对象,甚至用来定义方法的函数、类定义等也都是作为对象来存储和处理的。1.函数和类也是对象,都可以作为变量去赋值# 函数可以赋值给一个变量def ask(name='happy'): print(name) my_func = ask # 函数赋给变量my_func原创 2020-06-02 17:17:44 · 582 阅读 · 1 评论 -
python中__init__和self的意义和作用
原创 2020-06-02 16:27:02 · 321 阅读 · 0 评论 -
Sklearn到底是什么?
更多详细代码关注sklearn中文官方文档:https://www.cntofu.com/book/170/index.html1.概念Sklearn (全称 Scikit-Learn) 是基于 Python 语言的机器学习工具,是机器学习中的常用第三方模块。它建立在 NumPy, SciPy, Pandas 和 Matplotlib 之上,里面的 API 的设计非常好,所有对象的接口简单,对常用的机器学习方法进行了封装,包括回归(Regression)、降维(Dimensionality Re原创 2020-06-01 10:58:21 · 34121 阅读 · 2 评论 -
聚类算法 and k-Means聚类算法(西瓜书第9章)
1.聚类任务聚类就是对大量未知标注的数据集,按照数据的内在相似性将数据集划分为多个类别(在聚类算法中称为簇),使类别内的数据相似度高,二类别间的数据相似度低。聚类算法是无监督学习(unsuperivised learning),训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来解释数据的内在性质及规律,为进一步的数据分析提供基础。聚类算法师徒将数据集中的样本划分为若干个通常是不相关的子集,每个子集之间称为一个“簇”(cluster),通过这样的划分,每一个簇可能对应于一些潜在的概念(类别原创 2020-05-28 17:34:07 · 2935 阅读 · 0 评论 -
决策树可视化工具——Graphviz安装(Windows下)
1.安装下载地址:https://graphviz.gitlab.io/_pages/Download/Download_windows.html下载过程较为漫长,下载成功后,双击傻瓜式安装安装成功后,打开文件夹并将其bin路径添加至环境变量dooo在命令行界面验证:出现上图即安装成功。2.使用作为一名小白,刚安装好根本不会使用,在网上找了一些教程感觉也不是很清晰,这边自己琢磨了一下最最最基本的使用:首先双击打开安装好的软件,输入以下代码,并且保存为.原创 2020-05-12 23:33:31 · 2087 阅读 · 0 评论 -
自己尝试使用简单数据集实现决策树 代码——《机器学习实战》
记录学习过程,每天学会一点点,早日玩转机器学习......(手动呵呵微笑)。1.数据集部分上图为所给的海洋生物数据,则以1代表可以付出水面、有脚蹼;0代表无法浮出水面、无脚蹼;yes为属于鱼类、no为不属于鱼类则创建数据集的代码可以表示为:from math import log"""加载得到简单的鉴定鱼的数据集"""def createDataSet(): #根据所给的数据表构造数据集 dataSet = [[1,1,'yes'], ..原创 2020-05-20 00:40:22 · 1268 阅读 · 1 评论 -
深度学习图像
对于一个图像:import matplotlib.image as miif __name__ == '__main__': img = mi.imread('fl.jpg') print(img.shape) print(img.shape[0]) print(img.shape[1]) print(img.shape[2])...原创 2020-04-01 12:03:00 · 189 阅读 · 0 评论