![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
菜鸟计划
Ahpubx
这个作者很懒,什么都没留下…
展开
-
关连备忘录
1、筛选数据:数据包括用户编号和用户购买产品2、引入频繁项集,支持度,置信度,提升度这四个概念频繁项集:出现频次比较多的数据组合a) Ab) ACc) ABd) ABC支持度:频繁项集出现的概率a) A: 5/9b) B: 4/9c) C:7/9d) D:2/9e) AB:2/9f) AC:4/9g) AD:2/9h) BC:2/9i) BD:NANj) CD:...原创 2020-04-10 16:01:49 · 210 阅读 · 0 评论 -
决策树数学理解
原创 2020-03-30 18:03:11 · 277 阅读 · 0 评论 -
浅解HADOOP备忘录
1、HDFS YARN 主从关系2、MAP REDUCE 计算数据3、ZOOKEEPER4、HIVE原创 2020-03-28 19:54:38 · 184 阅读 · 0 评论 -
决策树算法简易理解以及PYTHON实现
决策树算法三种算法:1、信息增益 2、信息增益率 3、Gini系数决策树:通俗理解 完成一件事,根据事情的难易程度进行决策先做哪一步判断一个瓜的好坏:瓜的特征:颜色,大小,味道瓜的标注:好,坏1、信息增益步骤:根据瓜的标注求出瓜的信息:好:12 坏:7D= -(12/19)log(12/19)-(7/12)log(7/12)计算特征...原创 2020-03-23 00:33:02 · 227 阅读 · 0 评论 -
随笔(3)——ANN 神经网络 初学版
人工神经网络算法输入层:输入特征值 隐含层:非线性变化重要过程 输出层:模型输出输入层的数值范围为:0~1 归一化处理隐含层可以有一层或者多个隐含层 转换函数[激活函数] : sigmod,ReLu,softplus输出层 one-hot类型 两个类别[0,1] [1,0] 结果在0到1之间最终输出值进行softmax转化:所有输出值相加等于...原创 2020-03-22 12:13:52 · 499 阅读 · 0 评论 -
RFM 模型 PYTHON 版
RFM模型R:购买时间间隔F:购买频次M:客单价主讲关于RFM模型PYTHON实现构造虚拟数据表order.xlsxKEY:关注随机函数的应用具体代码:import pandas as pddf=pd.read_excel(“d:\order.xlsx”)#剔除未成交订单df=df.loc[df[“订单状态”]==“成交”,:]#根据需求取数df=df[[“姓名”,“购...原创 2020-03-21 14:24:08 · 404 阅读 · 0 评论 -
聚类算法汇总
1、K-Means聚类步骤:①初始化K个样本点作为初始聚类质心②根据欧氏距离将其他样本点划分为相应类别③计算新的质心作为聚类中心④重复二三步骤 终止条件:最终一次聚类的质心与上一次聚类的质心差值<设定的阈值2、层次聚类(AgglomerativeClusting)树结构聚类聚类距离选择:最近single linkage,最远complete linkage,平均a...原创 2020-03-19 21:34:12 · 387 阅读 · 0 评论 -
随笔(2)——SQL回顾
SQL回顾约束 唯一,检查 ALTER TABLE A ADD CONSTRAINT U1 / CHECK1 UNIQUE(NAME) / CHECK (AGE>18) 默认,非空 ALTER TABLE A CHANGE COLUMN LOCATION LOCATION VHARCHAR(11) DEFAULT '上海' /NOT NULL 修列 删...原创 2019-12-25 15:43:30 · 136 阅读 · 1 评论 -
随笔(1)—指定词语的词频统计
利用爬虫软件爬取了微博一条关于同性婚姻合法性的评论数据目的在于想要通过对评论内容的分析了解这个话题舆论的关注import jiebaimport jieba.analyseimport numpy as npf_path="D:\文本.txt"with open(f_path) as f: contents=f.read()words=jieba.lcut_for_se...原创 2019-12-20 16:14:59 · 1303 阅读 · 0 评论 -
数据分析之MYSQL简易查询
学生成绩数据库复习:学生表S(SID,SNAME,SAGE,SSEX)课程表C(CID,CNAME,TID)教师表T(TID,TNAME)成绩表SC(SID,CID,SCORE)1、熟悉查询语句模板:SELECT 查询属性FROM 表名称WHERE 条件GROUP BY 分组列名称HAVING 条件聚合函数ORDER BY 排序列名称L...原创 2019-10-11 11:40:07 · 212 阅读 · 0 评论 -
数据分析之回归
import pandas as pdimport numpy as npfrom sklearn import datasetsfrom sklearn.preprocessing import StandardScalerfrom sklearn.linear_model import LinearRegression#线性回归from sklearn.linear_model im...原创 2019-09-08 23:40:43 · 593 阅读 · 0 评论 -
数据分析之鸢尾花KMEANS,层次,DBSCAN 聚类简单实现,评价指标:兰德系数,轮廓系数
import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltiris=pd.read_csv("D:\Test\iris1.csv")iris.describe()from sklearn.preprocessing import LabelEncoderiris...原创 2019-09-21 16:37:56 · 3376 阅读 · 1 评论 -
数据分析之MySQL基础知识版
World数据库:数据库使用,数据表列属性,字段进行修改:#查询city表 5到14的数据 SELECT * FROM city LIMIT 4,10;#根据countrycode分组 SELECT * FROM city GROUP BY CountryCode;#查询city表中的人数均值 SELECT AVG(Population) FROM city;#查询popu...原创 2019-09-22 12:13:28 · 134 阅读 · 0 评论 -
数据分析之numpy&&pandas 基础版
1、numpy 中的 array应用import numpy as npl=np.array([i for i in range(10)])larray([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])l[5]=100larray([ 0, 1, 2, 3, 4, 100, 6, 7, 8, ...原创 2019-09-23 16:38:46 · 160 阅读 · 0 评论 -
数据分析之简易直方图和饼图
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltdf=pd.read_csv("d:\Test\HR1.csv")df=df.dropna()dep=df["department"]dep=dep.where(dep!="sale").dropna()#print(dep)#绘制直方图plt....原创 2019-09-26 11:28:09 · 1000 阅读 · 0 评论 -
数据分析之简易异常值去除
异常值处理:在pandas读取excel文件的时候 首要安装pip install xlrd这一个库1、读取数据df=pd.read_excel(io='D:\Test\hr.xlsx')2、了解列结构统计空值的个数对空值进行常数,均值填充删除空值异常值查找:last_evaluation:最大值99 ...原创 2019-09-27 16:50:49 · 1571 阅读 · 0 评论 -
数据分析之数据划分以及模型搭建
1.获得数据的特征和标注:features,label2.切割数据:训练集,验证集,测试集 6:2:23.训练模型def models(features,label): from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score,recall_s...原创 2019-09-01 20:23:04 · 1026 阅读 · 0 评论