自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 关连备忘录

1、筛选数据:数据包括用户编号和用户购买产品2、引入频繁项集,支持度,置信度,提升度这四个概念频繁项集:出现频次比较多的数据组合a) Ab) ACc) ABd) ABC支持度:频繁项集出现的概率a) A: 5/9b) B: 4/9c) C:7/9d) D:2/9e) AB:2/9f) AC:4/9g) AD:2/9h) BC:2/9i) BD:NANj) CD:...

2020-04-10 16:01:49 207

原创 决策树数学理解

2020-03-30 18:03:11 276

原创 浅解HADOOP备忘录

1、HDFS YARN 主从关系2、MAP REDUCE 计算数据3、ZOOKEEPER4、HIVE

2020-03-28 19:54:38 184

原创 决策树算法简易理解以及PYTHON实现

决策树算法三种算法:1、信息增益 2、信息增益率 3、Gini系数决策树:通俗理解 完成一件事,根据事情的难易程度进行决策先做哪一步判断一个瓜的好坏:瓜的特征:颜色,大小,味道瓜的标注:好,坏1、信息增益步骤:根据瓜的标注求出瓜的信息:好:12 坏:7D= -(12/19)log(12/19)-(7/12)log(7/12)计算特征...

2020-03-23 00:33:02 227

原创 随笔(3)——ANN 神经网络 初学版

人工神经网络算法输入层:输入特征值 隐含层:非线性变化重要过程 输出层:模型输出输入层的数值范围为:0~1 归一化处理隐含层可以有一层或者多个隐含层 转换函数[激活函数] : sigmod,ReLu,softplus输出层 one-hot类型 两个类别[0,1] [1,0] 结果在0到1之间最终输出值进行softmax转化:所有输出值相加等于...

2020-03-22 12:13:52 487

原创 RFM 模型 PYTHON 版

RFM模型R:购买时间间隔F:购买频次M:客单价主讲关于RFM模型PYTHON实现构造虚拟数据表order.xlsxKEY:关注随机函数的应用具体代码:import pandas as pddf=pd.read_excel(“d:\order.xlsx”)#剔除未成交订单df=df.loc[df[“订单状态”]==“成交”,:]#根据需求取数df=df[[“姓名”,“购...

2020-03-21 14:24:08 403

原创 聚类算法汇总

1、K-Means聚类步骤:①初始化K个样本点作为初始聚类质心②根据欧氏距离将其他样本点划分为相应类别③计算新的质心作为聚类中心④重复二三步骤 终止条件:最终一次聚类的质心与上一次聚类的质心差值<设定的阈值2、层次聚类(AgglomerativeClusting)树结构聚类聚类距离选择:最近single linkage,最远complete linkage,平均a...

2020-03-19 21:34:12 381

原创 随笔(2)——SQL回顾

SQL回顾约束 唯一,检查 ALTER TABLE A ADD CONSTRAINT U1 / CHECK1 UNIQUE(NAME) / CHECK (AGE>18) 默认,非空 ALTER TABLE A CHANGE COLUMN LOCATION LOCATION VHARCHAR(11) DEFAULT '上海' /NOT NULL 修列 删...

2019-12-25 15:43:30 135 1

原创 随笔(1)—指定词语的词频统计

利用爬虫软件爬取了微博一条关于同性婚姻合法性的评论数据目的在于想要通过对评论内容的分析了解这个话题舆论的关注import jiebaimport jieba.analyseimport numpy as npf_path="D:\文本.txt"with open(f_path) as f: contents=f.read()words=jieba.lcut_for_se...

2019-12-20 16:14:59 1302

原创 数据分析之MYSQL简易查询

学生成绩数据库复习:学生表S(SID,SNAME,SAGE,SSEX)课程表C(CID,CNAME,TID)教师表T(TID,TNAME)成绩表SC(SID,CID,SCORE)1、熟悉查询语句模板:SELECT 查询属性FROM 表名称WHERE 条件GROUP BY 分组列名称HAVING 条件聚合函数ORDER BY 排序列名称L...

2019-10-11 11:40:07 203

原创 数据分析之简易异常值去除

异常值处理:在pandas读取excel文件的时候 首要安装pip install xlrd这一个库1、读取数据df=pd.read_excel(io='D:\Test\hr.xlsx')2、了解列结构统计空值的个数对空值进行常数,均值填充删除空值异常值查找:last_evaluation:最大值99 ...

2019-09-27 16:50:49 1567

原创 数据分析之简易直方图和饼图

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltdf=pd.read_csv("d:\Test\HR1.csv")df=df.dropna()dep=df["department"]dep=dep.where(dep!="sale").dropna()#print(dep)#绘制直方图plt....

2019-09-26 11:28:09 999

原创 数据分析之鸢尾花简单分析

鸢尾花数据分析报告1、读取数据import pandas as pdimport numpy as nppd.set_option('display.max_columns',20)pd.set_option('display.max_rows',20)df=pd.read_csv("D:\Test\iris.csv")备注:sl:花萼长 sw:花萼宽 pl...

2019-09-24 11:10:22 6337

原创 数据分析之numpy&&pandas 基础版

1、numpy 中的 array应用import numpy as npl=np.array([i for i in range(10)])larray([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])l[5]=100larray([ 0, 1, 2, 3, 4, 100, 6, 7, 8, ...

2019-09-23 16:38:46 159

原创 数据分析之MySQL基础知识版

World数据库:数据库使用,数据表列属性,字段进行修改:#查询city表 5到14的数据 SELECT * FROM city LIMIT 4,10;#根据countrycode分组 SELECT * FROM city GROUP BY CountryCode;#查询city表中的人数均值 SELECT AVG(Population) FROM city;#查询popu...

2019-09-22 12:13:28 133

原创 数据分析之鸢尾花KMEANS,层次,DBSCAN 聚类简单实现,评价指标:兰德系数,轮廓系数

import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltiris=pd.read_csv("D:\Test\iris1.csv")iris.describe()from sklearn.preprocessing import LabelEncoderiris...

2019-09-21 16:37:56 3369 1

原创 数据分析之回归

import pandas as pdimport numpy as npfrom sklearn import datasetsfrom sklearn.preprocessing import StandardScalerfrom sklearn.linear_model import LinearRegression#线性回归from sklearn.linear_model im...

2019-09-08 23:40:43 584

原创 数据分析之数据划分以及模型搭建

1.获得数据的特征和标注:features,label2.切割数据:训练集,验证集,测试集 6:2:23.训练模型def models(features,label): from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score,recall_s...

2019-09-01 20:23:04 1022

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除