- 博客(17)
- 资源 (4)
- 收藏
- 关注
原创 [数据挖掘] 关联规则 Apriori算法实现到PFP(paralled frequent pattern)算法
关联规则进行数据挖掘关联分析(Association analysis)理解:相关概念Apriori算法查找频繁项集根据频繁项集挖掘关联规则关联分析(Association analysis)理解:从大规模的数据中, 发现事物(物品)间的隐含关系的过程就是关联分析(association analysis)或者关联规则学习(association rule learning).是一种...
2021-02-01 14:41:01 1481 1
原创 [数据挖掘] K-中心点 解决 k-means 的局部最优问题
k-中心点 基于代表的划分概述算法整体算法损失计算优化优点缺点讨论实现概述在 k-means, 我们使用了基于形心(簇均值)来对数据进行划分, 也讨论了 k-means 的初始值选取之重要, 若选得不好, 很容易陷入局部最优解的问题.实质上来说, 我们会陷入到局部最优解的本质原因是:当初始值选定之后, 我们有一个初始的簇均值基本是在这个簇的最大值与最小值之间每次更新的新的质心(均值)...
2019-01-10 01:58:40 9775
原创 最短路径总结
最短路径1. Floyd思想:尝试将每个点添加到两点间, 看距离是否变短, 变短则更新输入: 图矩阵输出: 每个点到每个点的最短距离核心代码:for(k = 1; k <= n; k++) for(j = 1; j <= n; j++) for(i = 1; i <= n; i++) if(e[i][j] > e...
2018-12-22 22:56:55 340
原创 总结 第一次pat甲级考试[18 冬季]
考前准备考试两个月之前间断刷过15道题, 每道题平均都会花一天的时间才能ac掉, 当时就想的为pat准备, 但是计划赶不上变化, 因为其他的原因放下了pat甲级题的跟进, 不过就那些时间也收获颇多.题目这次的题目相对于甲级题库的题来说还是相对简单的, 每道题大概得花了3分钟看题, 半分钟出现大概思路, 10分钟之内会出现具体的数据结构与算法, 其他时间都用来实现和改bug了.大概说下记忆中...
2018-12-09 19:00:21 2161 2
原创 [数据挖掘] k-means聚类 算法进行图像分割
使用k-means算法对图像色块进行分割k-means 简单描述算法步骤k-means 简单描述算法步骤将rgb图像分割成 r g b三个通道, 分别进行处理(灰度图不需要).初始随机给定 k 个值, 我选择k位3, (k 要属于该图像颜色所在域 如 0-255);k值的选取会影响聚类的速度;对 r g b三个通道分别进行以下聚类处理:创建一个新的列表ks来存 k 个类中每个类...
2018-12-03 21:45:32 10843 9
原创 [机器学习] 机器学习入门篇 从线性回归到手写逻辑斯蒂回归
如果你能认真看完这篇文章, 那么请联系我我送你小花花~手写实现逻辑回归1. 线性回归1.1 认识线性回归1.2 来, 吃个栗子1.3 多变量线性回归以及矩阵的表示1.4 线性回归的最优解:1.5 小结2 逻辑回归2.1 主题之前: 线性回归的广义化2.2 激活函数 sigmoid2.2 最优化逻辑回归(logistic regression)模型2.2.1 概率计算:2.2.2 损失函数的选择...
2018-11-25 22:51:38 368
原创 [数据挖掘] 朴素贝叶斯 以及西瓜集特征工程
朴素贝叶斯 以及西瓜数据集的特征工程朴素贝叶斯的基本思想朴素贝叶斯分类的过程数据集:版本1记录一下代码有多烂:评估版本2训练预测:结果即评估:版本3简介:数据集特征工程OneHotEncoder 与LabelEncoderpandas 给我弄晕了的方法:取值集合赋值特殊索引 *** 我记得numpy 也是这样代码朴素贝叶斯的基本思想先验概率: 通过已知事实, 推论出未知事务出现的概率例如:...
2018-11-12 15:55:36 3758
原创 [数据挖掘] 决策树
数据挖掘--决策树 待更新 简介信息熵理解:决策树的优劣主要问题解决方案ID3算法简介训练过程信息增益的计算如何划分数据简介决策树, 举两个栗子:网络上各种心理测试的题, 根据你选的答案, 跳到另一题, 最后得出你是什么性格的人.图灵测试, 通过设计各种问题来问跟你聊天的人, 在20 个问题以内, 你来判断跟你聊天的是机器人还是人.以上, 都是决策树的一种形式, 看图就懂:判...
2018-11-03 19:13:59 413
原创 1014 waiting in line 思路?
PAT 1014 Waiting in line我是过不了了, 可能思路某个地方有问题, 仅此记录, 有时间再看题目大意:刚开始所有人在一条黄线外. 等待银行开业, 共有 k 个人,每个人的业务需要窗口处理ki分钟, 黄线内可以容纳 m个人, 共有 n个窗口;即: n个队列, 每个队列容量为m, 共有k个人等待进入队列, 进入队列后, 每个人出队时需要ki min;银行在8:00 ...
2018-10-22 11:31:14 248
原创 Touch HDFS (hadoop分布式文件系統)
初入HDFS--HadoopDistributedFileSystem总览注:本文为学习课程内容整理实验环境1. Hadoop文件系统2. 什么是HDFS3. HDFS设计目标适用不适用4. HDFS概念概念4.1. Block(数据块)4.2. Namenode(管理节点)4.2.1 NameNode深入4.3. SecondaryNameode(辅助节点)4.3.1 SecondaryName...
2018-10-21 10:50:03 866
原创 PAT 1010 Radix
坑贼多结果 Radix 可能非常大, 我一开始以为最大就到35, 其实不然, 所以昨天只有 18分时间复杂度, 当radix非常大时, 顺序遍历就会 超时了, 所以采用二分法查找每次 试探 一个 radix 得出的值可能溢出 long long int 范围变成负数, 此时要判断, 舍去更大的radix题目1010 Radix (25 分)Given a pair of posi...
2018-10-03 16:25:17 181
原创 这 真 TM 是个奇怪的问题 PAT 1009 Product of polynomials 求救~~~~
求救在先!!!思想该题目很简单, 数据结构用 下标做指数, 值做系数来存储多项式, 就行了…然而!!我在最后统计系数非零的项数的时候, 出现了一个我无法理解的错误!用visited[]作为判断该项数的系数是否为0, 如果为0 则visited[i]值为0, 否则为 1;打印的时候, 判断 visited是否为1, 若为1 则打印…第三个测试点, 竟然错了???但是我直接判断 d...
2018-10-02 20:47:46 227
原创 PAT 乙级 1045-快速排序
for(j = 0,i = n-1; i >= 0; i--){ if(d[i] < min[j]){ min[++j] = d[i]; } }
2018-09-30 18:27:05 163
原创 1007 Maximum Subsequence Sum 最大子串和
最大字串和该题和上学期老师讲的一模一样, 唯一不同的地方是需要记录结果的开始与结束位置;我竟然花了接近2个小时的时间写;思路(递归)记录结果的数据结构:最大子段和串最左元素串最右元素分成3段:中间, 左边, 右边递归得到左右的最大子串和计算中间的最大子串和: 先由中向右扩展到最大串, 并记录最右边位置; 再由中向左扩展到最大串, 直到边界, 记录最左边位置.返回 左 中 ...
2018-09-27 19:12:55 116
原创 PAT 1004 Counting leaves 哈希数组与dfs
1004第一次尝试:用兄弟树来做: 记录孩子与兄弟, 发现没办法记录层数第二次尝试因为只需要知道孩子结点是否存在即可, flag = 0表示不是叶子结点, level是当前层数用数组来做, 数据结构typedef struct Node{ int flag; int level;}Node;关键代码:每读取一行, 判断该结点是否已经存在, 若存在, leve...
2018-09-20 21:26:46 117
原创 PAT 1003 Emergency 最短路径dijkstra与DFS算法
PAT 1003 emergency学习djstra算法伪代码:设d[0]=0, 其他d[i]=INF循环n次{ 在所有为标号结点中选出d值最小结点x 给结点x标记 对于x出发的所有边(x,y), 更新d[y]=min{d[y], d[x]+w(x,y)}}总结:循环内主要分为两部分找出当前结点的最短的路径根据找出的最短路径的结点, 来更新dist表: 若该结点相邻的...
2018-09-18 19:03:59 368
Hadoop配置文件
2018-10-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人