自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(61)
  • 收藏
  • 关注

原创 23、python协同过滤推荐案例代码

目录1、数据结构2、模型构建01 用户评分向量(User Rating Vector)02 商品评分向量(Item Rating Vector)03 距离计算(Distance)04 相似度计算(Similarity)05 相似邻居计算(Neighborhoods)3、调用方法4、基于人的协同过滤代码5、基于物品的系统过滤代码案例协同推荐(Collabo...

2018-12-19 19:16:11 1264 1

原创 7、Cannot broadcast operands together.

问题;:Cannot broadcast operands together.  不能一起广播操作数,数据维度不一样举例:数据维度不一样data_mean=data_train.mean()data_std=data_train.std()data_train=(data_train-data_mean)/data_stdValueError: Cannot broadca...

2018-12-19 14:56:51 1549

原创 6、ValueError: Wrong number of items passed 11, placement implies 1

1 问题:ValueError: Wrong number of items passed 11, placement implies 12 解释:表明你试图把太多维度的项数放在太少的项数里,本例子中是把11项数试图放在1项3 源代码:Mp['报名数']=pandas.merge(        Mp,        true,        left_on='日期',   ...

2018-12-18 15:33:00 42483 2

原创 22、python关联规则案例代码

1、关联:(Association)    把两个或者两个以上在意义上,有密切联系的项组合在一起关联规则(Association Rules AR)    用于从大量数据中挖掘出有价值的数据项之间的相关关系    协同过滤(Collaborative Filtering,简称CF)    协同过滤常常被用于分辨某位特定固定可能感兴趣的东西,这些结论来自于对其他相似顾客对哪些产品...

2018-12-17 11:04:48 9300 13

原创 21、python的K-means聚类分析方法案例代码

1、聚类分析是按照个体的特征将他们分类,让同一个类别内的个体之间具有较高的相似度,不同类别之间具有较大的差异性;2、基本理论Kmeans:K表示算法当中类的个数Means 均值算法:K-means 使用均值算法把数据分成k个类别的算法Kmeans算法:kmeans算法的目标,是把n个样本点划分到k个类中,使得每个点都属于离他最近的质心对应的类,以此作为聚类的标准质心:是指一...

2018-12-17 10:57:50 7238 9

原创 12、python特征工程内容介绍

目录1  特征工程重要性2 特征工程内容包括3  数据处理 第一种、量纲不一 第二种 虚拟变量 第三种    缺失值处理特征工程(Feature Engineering)其本质上是一项工程活动,他目的是最大限度地从原始数据中提取特征以供算法和模型使用1  特征工程重要性 01 特征越好,灵活性越强(允许选择不复杂的模型,运行速度快,可以更好的理解和维护)...

2018-12-14 23:19:55 457

原创 20、Python特征工程,维度压缩

1 维度压缩主成分分析(rincipal components Analysis)在减少数据集的维度的同时,保持对方差贡献最大的特征2 PCA方法pca_3=PCA(n_components=3) 维度设置fit 训练数据data_pca_3=pca_3.fit_transform(data)3 代码案例事例import pandasfrom sklearn ...

2018-12-14 23:13:11 1102

原创 19、Python数据特征选择,模型选择法

 1  模型选择法把建好的模型对象传入选择器,然后根据这个已经建好的模型,自动帮我们选择最好的特征值。2 案例代码import pandasdata = pandas.read_csv('D:\\database\\pystudy\\6.2\\data2.csv')# 导入线性回归方程和模型选择方法from sklearn.linear_model import L...

2018-12-14 23:09:56 1670

原创 18 python数据特征选择,递归特征消除法

1 递归特征消除法(RFE)使用一个基模型来进行多轮训练,经过多轮训练后,保留置顶的特征数RFE是recursive feature elimination回归特征消除,让回归特征消除过程中只保留no_features个最重要的特征,可以避免过度拟合,但RFE会舍弃一些变量,原没有下面几个方法给变量赋权重来的好。2 代码案例import pandasdata = pandas...

2018-12-14 19:06:50 8374 2

原创 17、Python特征工程,用相关系数法选择数据特征

1 相关系数法先计算各个特征对目标值得相关系数,选择更加相关的特征2 代码案例import pandasdata = pandas.read_csv('D:\\database\\pystudy\\6.2\\data2.csv')# 导热油特征选择的方法和相关系数的方法from sklearn.feature_selection import f_regression...

2018-12-14 15:31:27 8319

原创 16、python用方差方法选择数据特征

1 方差选择法 先计算各个特征的方差,选择方差大于阈值的特征2 案例import pandasdata = pandas.read_csv('D:\\database\\pystudy\\6.2\\data1.csv')# 查看数据框里边的数据类型data.dtypes# 导入计算方差的方法from sklearn.feature_selection import...

2018-12-14 15:25:17 3894 1

原创 15 python数据缺失值处理方法代码示例

1 缺失值产生原因: 有些信息暂时无法获取 有些信息被遗漏或者错误地处理2 缺失值处理方法数据补齐删除缺失行不处理 3 代码示例import pandas data=pandas.read_csv('D:\\DATA\\pycase\\number2\\6.1\\data3.csv')#  均值'mean' 中值'median' most_freque...

2018-12-13 19:40:46 2754

原创 14 python虚拟变量的数据量化处理

1 虚拟变量也叫作哑变量和离散特征编码,可用来表示分类变量、非数量因素可能产生的影响 2 category数据类型category是pandas的一种数据类型,对应着被通缉的变量。Categoricals是由固定且有限数量的变量组成的,比如:性别、社会阶层、血型、国籍、观察时段、赞美程度。与其它被统计的变量相比,categorical 类型的数据可以具有特定的顺序——比如:按程度...

2018-12-13 19:35:26 2596

原创 13、python数据标准处理(0-1标准化、Z标准化、normalizer归一化)

数据标准化处理问题:量纲不一:就是单位、特征的单位不一致,不能放在一起比较处理方法:0-1标准化、Z标准化、normalizer归一化案例:# -*- coding: utf-8 -*-import pandasimport numpydata=pandas.read_csv( 'D:\\DATA\\pycase\\number2\\6.1\\d...

2018-12-13 19:24:14 18942 1

原创 11、python分类方法 SVM支持向量机案例完整

1 支持向量机(简称SVM)是一个功能强大并且全面的机器学习模型,它能够执行线性或非线性分类、回归,甚至是异常值检测任务。它是机器学习领域最受欢迎的模型之一,任何对机器学习感兴趣的人都应该在工具箱中配备一个。SVM特别适用于中小型复杂数据集的分类。 2 案例# -*- coding: utf-8 -*-import scipy.io as sciowineData = s...

2018-12-13 19:07:48 3428 3

原创 10、python随机森林代码案例

目录1 概念2 优点3 理论方法4、代码完整案例1 概念随机森林:随机森林是包含多个决策树的分类器,并且其输出类别是由个别树输出的类别的众数而定决策树见案例:https://blog.csdn.net/qq_36327687/article/details/849448502 优点01 适合离散型和连续型的属性数据02 对海量数据,尽量避免了过度拟合的问题...

2018-12-13 19:05:20 4010 1

原创 VBA程序打开文件时被强制删除,无法使用模块

1 环境第二天开机打开含有VBA程序的excel,突然弹出一个修复窗口,必须点击确定,否则退出。修复之后见下图: 泪崩:所有的VAB程序一次开机之间啥也没有了,工作。。。。2 下面说一下解决方法01  按alt+F11 可以调出VBA窗口,以及程序删除解决方法: 1、系统更换为中文系统 2、模块名字改为英文即可 ps:若有已经写了代码的文件可通过...

2018-12-13 14:05:27 6373

原创 35、python序列和变量时间格式的转换

1 时间表现主要分为字符窜格式和时间格式。str和datetime2  运算的匹配又有时间具体的一些年、月、日、时、分、秒。属性:%Y 代表年份%m 代表月份%d 代表日期%h 代表小时%M 代表分钟%S 代表秒3 序列格式和变量格式的修改01 序列时间格式的修改import pandas# 将字符型时间格式转化为时间格式data['时间']=pandas...

2018-12-12 17:28:53 1272

原创 1 python 函数、数组、对象的使用方法

目录1 函数2 数组3  对象1 函数# 我们将函数视为机器,接受输入,做一些工作,然后弹出输出# 案例:def avg(x,y):    print("first input is", x)    print("second input is", y)    a=(x+y)/2.0   # 除以2.0告诉Python,我们坚持使用具有小数部分的数字,而不希望结...

2018-12-12 12:17:32 3878

原创 5、csv格式出现: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid continuation byte

问题环境:import pandas # 读取数据,指定日期为索引列data = pandas.read_csv( 'D:\\DATA\\pycase\\number2\\project\\pretice\\IT.csv' , index_col='日期' ) UnicodeDecodeError: 'utf-8' codec can't deco...

2018-12-11 11:43:42 1881

原创 9、python决策树分类(实战案例)

目录1、概念2 决策树生成方法3、决策树绘图方法4、案例代码示例1、概念决策树(DEcision Tree)他通过对训练样本的学习,并建立分类规则,对新样本数据进行分类,属于有监督学习决策树也是一种多功能的机器学习算法,它可以实现分类和回归任务,甚至是多输出任务。优点:决策树易于理解和实现决策树可处理数值型和非数值型数据2 决策树生成方法#  ...

2018-12-11 10:10:04 10049 7

原创 8、python多项式贝叶斯文本分类(完整)

1、贝叶斯定理(Bayes Theorem)朴素贝叶斯分类(Naive Bayes Classifier)    贝叶斯分类算法,是统计学的一种分类方法,它是利用贝叶斯定理的概率统计知识,对离散型的数据进行分类的算法 2、贝叶斯算法的类型sklearn包naive_bayes模块GaussianNB  高斯贝叶斯BernoulliNB  伯努利贝叶斯Multionmi...

2018-12-11 10:09:57 3047

原创 6、python逻辑回归代码案例实现

逻辑回归(Logistic Regression)    针对因变量为分类变量而进行回归分析的一种统计方法,属于概率性非线性回归。        优点:算法容易实现和部署,执行效率和准确度高。       缺点:离散类型的自变量数据需要通过生成虚拟变量的额方法来使用     2 公式对比线性回归方程y=a1x1+a2x2+....+anxnSigmoid函数(Sigm...

2018-12-11 10:09:46 4990 3

原创 5、Python多重线性回归(代码案例)

目录1、回归分析的步骤: 2、需要满足的条件3、矩阵数据绘制散点图4、代码实践案例多重线性回归:研究一个因变量与多个自变量间线性关系的方法1、回归分析的步骤:01 根据预测目标,确定自变量和因变量02 绘制散点图,确定回归模型类型03 估计模型参数,建立回归模型04 对回归模型进行检验回归方程的精度就是用来表示实际观测点和回归方程的拟合程度的指标,使用判...

2018-12-11 10:01:40 3785 1

原创 4、python简单线性回归代码案例(完整)

第一、回归分析的步骤01 根据预测目标,确定自变量和因变量02 绘制散点图,确定回归模型类型03 估计模型参数,建立回归模型04 对回归模型进行检验回归方程的精度就是用来表示实际观测点和回归方程的拟合程度的指标,使用判定系数来度量。判定系数=相关系数R平方=ESS/TSS=1-RSS/TSS其中:具体公式见图TSS   总离差平方和ESS   回归平方和RSS ...

2018-12-11 10:00:31 25414 14

原创 3、python关键字提取和词云美化

第一、理论准备1 读取图片背景   bimg = imread(imgFilePath)2 获取图片颜色bimgColors=ImageColorGenerator(bimg)3 重制词云的颜色wordcloud.recolor(color_func=bimgColors) 第二、案例代码实践# 读取文件的内容import codecs;content=[]f=co...

2018-12-11 10:00:22 2197

原创 2、 python文本关键词提取实现(案例)

第一、理论准备1交叉计数函数pivot_table(value,index,columns,aggfunc,fill_value)# 参数说明values:数据透视表中的值index:数据透视表中的行(索引)columns;数据透视表中的列aggfunc:统计函数fill_value:NA值的统一替换。# 返回只说明:   数据透视表的结果2 IDF 公式的实现...

2018-12-11 10:00:12 6561

原创 1、python挖掘建模流程

目录1 定义目标2 数据采集2.1 抽取数据的标准2.2  衡量数据的质量标准2.3 基于挖掘目标需要的数据源2.4 在这些数据源中抽取用于建模的主要内容3、数据探索3.1 数据质量分析3.2  数据特征分析3.3 主要数据探索函数4 数据预处理4.1 数据清洗4.2 数据集成4.3 数据变换4.4 数据规约5 构建模型6 模型发...

2018-12-10 17:07:57 1659

原创 8、VBA使用正则表达式拆分内容

1 重点内容01 正则表达式文本myreg.pattern=".*[^学历规划师]:\s+.*"02  执行语句regexp.execute(s)使用regexp对象那个已经设置好的表达式(pattern属性)在字符窜s中查找符合t条件的文本03  替换regexp.replace(s,r)并未修改原文本是,而是将替换后的节骨作为一个新的字符窜cells(i,2)=...

2018-12-10 15:05:01 2566

原创 7、正则表达式贪婪搜索和懒惰搜索原则

1 贪婪搜索原则以某个字符为起始(比如3),\d.*\d如果同时多个符合要求的字符串(比如 3+5 ,3+5 2+7),则选择最长的一个作为最终结果2 懒惰搜索当有多个以同一字符未开始、并且符合查询条件的字符串时,选择第一个也就是最短的一个作为结果在表示次数的元字符后面加上问好,即执行懒惰搜索a*? 可有任意个a,但尽可能少a+? 一个或者多个a,但尽可能少a...

2018-12-10 14:57:56 2728

原创 6、正则表达式基础知识

目录1 重复结构2、指代特定内容的元字符3、转义字符4、分列显示1 重复结构同一个内容连续出现n次(你>=0)+ 前面的内容连续出现1次或更多次元字符“ a+b+ ”详细:+  前面的内容连续出现1次或更多次*  前面的内容出现任意次,包括0次?  前面的内容出现0次或者1次{n} 正好出现n次{n,m}  出现 n 到 m 次2...

2018-12-10 14:55:55 226

原创 5 VBA实现自动在所用数据列后边添加新数据

操作环境;VB编辑器,在N1所在列后边添加数据 ### 特别注意r是对象 sub demo() dim r as range   If Cells(i, 58) = 0 Then                        Set r = Sheets("改动表").Range("N1", Sheets("改动表").Range("N1").End(xlDown))     ...

2018-12-10 14:50:18 3298

原创 4 VBA range对象和range属性的常见使用方法整理

1 与range对象位置有关的属性(1)range.row : 该Range左上角单元格的行号(2)range.column:该range左上角单元格的列号(3)range.address : 该range各个对角顶点的绝对引用地址$注意:当range包含多个矩形区域的时候,row和column只返回其中某一个矩形的左上角位置,并不一定是整个range的左上角!比如:rang...

2018-12-10 14:45:00 50418 1

原创 3 VBA读取word到excel中

案例:option explicitsub importfromword()dim w as object,i As Long,doc as Object'创建一个word的Application对象,由w代表set w=CreateObject("word.application") '循环打开使用数字命名的各个word文档,由doc代表for i=1 to 8  ...

2018-12-10 14:27:15 5585

原创 2 批量读取text文本到excel中

一、步骤:1 01 使用VBA程序打开文本文件2 读取一行内容3 判断是否已经到末尾4 关闭文本文件二、案例f=dir(“d:\demo2\”)以反斜杠“\”结尾代表文件夹,否则会被当做一个文件,即demo2文件### 成功案例Option ExplicitSub dirdemo()Application.ScreenUpdating = False ...

2018-12-10 12:12:40 2517

原创 2 VBA链接mysql数据库步骤和代码示例

 连接前的准备工作1、VBA连接MySql前的准备              Tools--->References..---->引用              勾选Microsoft ActiveX Data Objects 2.8 Librarys 和Microsoft ActiveX Data Objects Recordset 2.8 Librarys2 安...

2018-12-10 11:12:40 3262

原创 1、VBA的常用功能1

目录1 cells(行,列)2  range 选择含有变量的多个单元格3  count 函数4  for ....next...5 if....else....多条件6.  array()       返回一个数组7  Trim() 只会删除字符串两边的空格1 cells(行,列)是一种找到单元格对象的方法,而不是单元格本身(经纬度工具)2  range 选...

2018-12-07 16:21:07 1832

原创 10、mysql查询并自动获取基于今天的数据

1  获取前一天的数据:date_sub(now(),interval 1 day)2 获取前一个月的数据:date_sub(now(),interval 1 month)3 获取前一周的数据:date_sub(now(),interval 1 week)4 获取前一年的数据:date_sub(now(),interval 1 year)案例:select * from `新...

2018-12-07 15:58:01 161

原创 9、mysql三表连接查询简单语句

mysql 三表联查:左连接案例:(在两表联查的基础上再加一层)select username,ps,name,tel from (t1 left join t2 on t1.t1_id=t2.t1_id) left join t3 on t1.t1_id=t3.t1_id其他链接依据此案例和二表联查同理。二表联查:https://blog.csdn.net/qq_3632768...

2018-12-07 15:52:54 3119

原创 8、mysql数据库多表查询(数据并集、内连接、左链接、右链接、全连接)

目录1 内连接场景:A和B数据 的交集2 左链接场景1:得到 “AB交集后和A“ 的并集  (得到A的所有数据+满足某一条件的B的数据)场景2:得到A减去AB的交集  (A中所有数据减去同时满足B某一条件的数据)3 右链接场景1:得到“AB交集后和B“的并集,(场景B的所有数据以及满足某一条件A的数据)场景2:得到B减去AB的交集。(B中所有的数据减去与A满足同一条...

2018-12-07 14:43:15 2659

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除