自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

转载 DBSCAN算法实现---Python

生活不易啊,公司考核,初步写出来了,脑阔疼。。。思路:  设定阈值与半径;  计算点之间的距离(欧式距离实现);  区分核心点、边界点与离群点;  将每个点的领域作为一个类(即将密度可达的点归为一个簇);  找出每个独立的领域;  对最后的聚类进行标记;  可视化。代码实现:  1、设定eps = 2,MinPts = 3;  2、实现...

2018-12-06 00:08:00 224

转载 Python数据挖掘-序列预测

预测(forecast):对尚未发生或目前还不明确的事物进行预先的估计和推测,简单来说就是指从已知事件测定未知事件时间序列预测(Time Series Forecasting):通过分析时间序列,根据时间序列所反映出来的发展进程、方向和趋势,进行类推或延伸,借以预测下一段时间或若干年内可能达到的水平。平稳型时间序列(stationary time ser...

2018-10-22 18:43:00 286

转载 Python时间相关处理

---恢复内容开始---日期和时间数据类型及工具python标准库包含于日期(data)和时间(time)数据的数据类型,datetime\time以及calendar模块会被经常用到datetime以毫秒形式存储日期和时间,datetime.timedelta表示两个datetime对象之间的时间差给datetime对象加上或减去一个或多个timedelta...

2018-10-22 09:44:00 135

转载 JS-HTML教程

---恢复内容开始---HTML教程:超文本标记语言(Hyper Text Markup Language,HTML)是一种用于创建网页的标准标记语言;HTML文档的后缀名.html.htm以上两种后缀名没有区别,都可以使用HTML实例eg:<!DOCTYPE html><html><head>...

2018-10-19 18:35:00 136

转载 Python时间相关处理

日期和时间数据类型及工具python标准库包含于日期(data)和时间(time)数据的数据类型,datetime\time以及calendar模块会被经常用到datetime以毫秒形式存储日期和时间,datetime.timedelta表示两个datetime对象之间的时间差给datetime对象加上或减去一个或多个timedelta,会产生一个新的对象。...

2018-10-15 16:43:00 92

转载 Python数据挖掘-时间序列-非季节性时间学分解

概念时间序列(Time Series)  时间序列是均匀时间间隔上的观测值序列时间序列分析(Time Series Analysis)  趋势分析  序列分解  序列预测时间序列分解(Time-Series Decomposition)  时间写按照季节性来分类,分为季节性时间序列和非季节性时间序列非季节性时间序列:趋势部分、不规则部分;季节性时间...

2018-10-13 23:19:00 812

转载 Python数据挖掘—关联—关联规则

关联规则方法:使用apyori包中的apriori方法,该方法传入训练样本,用一个数组把一个样板存储起来,接着是使用数组把所有的样本存储起来转载于:https://www.cnblogs.com/U940634/p/9784498.html...

2018-10-13 22:20:00 381

转载 JS-HTML教程

HTML教程:超文本标记语言(Hyper Text Markup Language,HTML)是一种用于创建网页的标准标记语言;HTML文档的后缀名.html.htm以上两种后缀名没有区别,都可以使用HTML实例eg:<!DOCTYPE html><html><head><meta char...

2018-10-11 17:53:00 160

转载 Python数据挖掘—聚类—KMeans划分法

概念聚类分析:是按照个体的特征将它们分类,让同一个类别内的个体之间具有较高的相似度,不同类别之间具有较大差异性无分类目标变量(Y)——无监督学习K-Means划分法、DBSCAN密度法、层次聚类法1、导入数据 1 import pandas 2 from sklearn.cluster import KMeans 3 from ...

2018-10-09 08:22:00 460

转载 Python数据挖掘—特征工程—特征选择

如何选择特征根据是否发散及是否相关来选择方差选择法先计算各个特征的方差,根据阈值,选择方差大于阈值的特征方差过滤使用到的是VarianceThreshold类,该类有个参数threshold,该值为最小方差的阈值,然后使用fit_transform进行特征值过滤相关系数法先计算各个特征对目标值的相关系数,选择更加相关的特征递归特征消除法使用一个...

2018-10-06 21:44:00 349

转载 Python数据挖掘—特征工程—数据处理

概念:特征工程:本质上是一项工程活动,他目的是最大限度地从原始数据中提取特征以供算法和模型使用特征工程的重要性:特征越好,灵活性越强、模型越简单、性能越出色。特征工程包括:数据处理、特征选择、维度压缩量纲不一:就是单位,特征的单位不一致,不能放在一起比较通过:0-1标准化、Z标准化、Normalizer归一化...

2018-10-06 19:42:00 177

转载 Python数据挖掘—分类—SVM

概念:支持向量机(Support Vector Machine)  SVM属于一般化线性分类器,这类分类器的特点是他们能够同时最小化经验误差和最大化几何边缘区,因此支持向量机也被称为最大边缘区分类器。转载于:https://www.cnblogs.com/U940634/p/9746371.html...

2018-10-05 23:45:00 187

转载 Python数据挖掘—分类—随机森林

概念随机森林(RandomForest):随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别数输出的类别的众数而定优点:适合离散型和连续型的属性数据;对海量数据,尽量避免了过度拟合的问题;对高维数据,不会出现特征选择困难的问题;实现简单,训练速度快,适合 进行分布式计算 1 import pandas; 2 3 data = panda...

2018-10-05 23:30:00 534

转载 Python数据挖掘—分类—决策树

概念决策树(Decision Tree):它通过对训练样本的学习,并建立分类规则,然后依据分类,对新样本数据进行分类预测,属于有监督学习优点:决策树易于理解和实现,决策树可处理数值型和非数值型数据步骤导入数据,确定虚拟变量的列,然后遍历这些列,将这些类的数据转换为分类型数据,再通过get_dummies()方法获取虚拟变量 1 import ...

2018-10-05 23:16:00 240

转载 Python数据挖掘—分类—贝叶斯分类

pandas之get_dummies方法:pandas.get_dummies(data,prefix=None,prefix_sep="_",dummy_na=False,columns=None,sparse=False,drop_first=False)该方法可以将类别变量转换成新增的虚拟变量/指示变量参数说明:data:array-like、Series ...

2018-10-05 20:21:00 263

转载 Python数据挖掘—分类—KNN

概念监督学习(Supervised Learning)从给定标注的训练数据集中学习出一个函数,根据这个函数为新函数进行标注无监督学习(Unsupervised Learning)从给定无标注的训练数据中学习出一个函数,根据这个函数为所有数据标注分类(Classification)  分类算法通过对已知类别训练数据集的分析,从中发现分...

2018-10-04 23:25:00 382

转载 Python数据挖掘—回归—神经网络

概念:神经网络:全称为人工神经网络,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型生物神经网络:神经细胞是构成神经系统的基本单元,称为生物神经元,简称神经元一般采用三到五层首先导入自变量和因变量 1 import pandas; 2 from pandas import read_csv; 3 ...

2018-10-04 20:03:00 362

转载 Python数据挖掘—回归—逻辑回归

概念针对因变量为分类变量而进行回归分析的一种统计方法,属于概率型非线性回归  优点:算法易于实现和部署,执行效率和准确度高  缺点:离散型的自变量数据需要通过生成虚拟变量的方式来使用在线性回归中,因变量是连续性变量,那么线性回归能根据因变量和自变量存在的线性关系来构造回归方程,因变量变成分类变量后就不存在这种关系了,需通过对数变换来进行处理(Sigmoid函数)...

2018-10-04 17:53:00 158

转载 Python数据挖掘—回归—一元非线性回归

1、使用scatter_matrix判断个特征的数据分布及其关系散步矩阵(scatter_matrix)Pandas中散步矩阵的函数原理1 def scatter_matrix(frame, alpha=0.5, figsize=None, ax=None, diagonal='hist', marker='.', density_kwds=None,hist_kwds=...

2018-10-04 11:45:00 662

转载 Python数据挖掘—回归—线性回归

简单线性回归步骤:1、读取数据2、画出散点图,求x和y 的相关系数:plt.scatter(x,y),x和y是dataframe3、估计参数模型,建立回归模型:lrModel=LinearRegression()4、训练模型: lrModel.fit(x,y)5、对回归模型进行检验: lrModel.score(x,y)6、利用回归模型进行预测:lrMod...

2018-10-03 23:27:00 303

转载 Python数据挖掘-相关性-相关分析

所需模块numpy、pandas相关系数计算首先使用numpy.mean()方法求出均值,Xsd=numpy.std()方法求出标准差;然后在通过(X-Xmean)/Xsd公式求出z分数;最后通过numpy.sum(ZX*ZY)/len(X) 1 import numpy 2 3 X=[ 4 12.5, 15.3, 23.2, 26....

2018-10-03 21:48:00 1438

转载 Python数据挖掘-使用sklearn包

使用sklearn包CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵get_feature_names()可看到所有文本的关键字vocabulary_可看到所有文本关键字和其位置toarray()可以看到词频矩阵的结果TfidfTransformer是统计CountVectorizer中每个词语的tf-idf权值...

2018-10-03 11:41:00 238

转载 Python数据挖掘-关键字提取

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) –sentence 为待提取的文本 –topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20 –withWeight 为是否一并返回关键词权重值,默认值为 False –allowPOS 仅包括指定词性的词...

2018-10-02 09:32:00 346

转载 Python数据挖掘-词云美化

1、语料库构建由于不像之前是对很多个文件进行词频统计,所以不需要使用os.walk()方法遍历每一个文件;只需使用codecs.open()打开相应的文件,(记得close);然后使用jieba模块中的load_userdict()方法导入词库import jiebaimport numpyimport codecsimport pandasfil...

2018-10-01 23:36:00 392

转载 Python数据挖掘-词云

词云绘制1、语料库的搭建、分词来源、移除停用词、词频统计使用方法:os.path.join(path,name) #连接目录与文件名或目录 结果为path/nameimport osimport os.pathimport codecsfilePaths=[]fileContents=[]for root,dirs,files in ...

2018-10-01 22:50:00 211

转载 Python数据挖掘-词频统计-实现

词频:某个词在该文档中出现的内容1、语料库搭建import jiebajieba.load_userdict("D:\\Python\\Python数据挖掘\\Python数据挖掘实战课程课件\\2.2\\金庸武功招式.txt")import osimport os.pathimport codecsfilePaths=[]fileCon...

2018-10-01 22:16:00 448

转载 Python数据挖掘-中文分词

将一个汉字序列切分成一个一个单独的词安装分词模块: pip install jieba分词在特殊场合的实用性,调用add_word(),把我们要添加的分词加入jieba词库高效方法:将txt保存的词库一次性导入用户词库中import jiebajieba.load_userdict("D:\\Python\\Python数据挖掘\\Python数...

2018-10-01 21:47:00 171

转载 数据挖掘-语料库的构建

语料库:是我们要分析的所有文档的集合使用搜狗实验室提供的语料库,里面有一个classlist,里面内容是文件的编号及分类名称1、导入模块import os import os.pathfilePaths=[] #建立一个空的列表来存放语料库的文件名称,数组变量for root,dirs,files in os.walk( ...

2018-10-01 20:44:00 1677

转载 如何利用python重命名一个文件名

import os#查找文件path="C:\\Users\\Jw\\Desktop\\python_work"#os.listdir()方法,列出来所有文件#返回path指定的文件夹包含的文件或文件夹的名字的列表files=os.listdir(path)#主逻辑#对于批量的操作,使用FOR循环for f in files: #调试...

2018-08-25 11:09:00 208

转载 “cyl projection cannot cross pole” 解决方法

解决方法:1、尝试更新NumPy以及相关模块:在CMD里面执行 conda update –all 遇到提示选择yes/y更新完毕后看是否可以载入。发现并不能成功更新,于是采取了下面方法:2、如果方法一不能解决,那么尝试卸载相关库,并重装。在CMD里执行conda remove numpy 遇到提示选择yes/y卸载完毕后重新安装...

2018-08-06 16:38:00 566

转载 Python数据可视化—折线图

折线图也称为趋势图,它使用直线线段将个数据点连接起来而组成的图形,以折线方式显示数据的变化趋势。 折线图绘制函数: plot(x,y,style,color,linewidth) title(“图的标题”) 参数说明: √ style,画线的样式 √ color,画线的颜色 √ linewidth,...

2018-08-02 15:44:00 1219

转载 Python数据可视化—散点图

散点图(scatter diagram)是以一个变量为横坐标,另一变量为纵坐标,利用散点(坐标点)的分布形态反应变量关系的一种图形 散点图绘图函数: plot(x,y,”.”,color=(r,g,b)) plot参数说明 √ x、y, X轴和Y轴的序列 √“.”“o” 小点还是大点 √ color,散点图的...

2018-08-02 15:43:00 549

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除