- 博客(188)
- 资源 (1)
- 收藏
- 关注
原创 组合特征之怎样有效地找到组合特征?
在很多实际问题中,我们常常需要面对多种高维特征。如果简单地两两组合,依然容易存在参数过多、过拟合等问题,而且并不是所有的特征组合都是有意义的。因此,需要一种有效的方法来帮助我们找到应该对哪些特征进行组合。本节介绍一种基于决策树的特征组合寻找方法。以点击预测问题为例,假设原始输入特征包含年龄、性别、用户类型( 试用期、付费)、物品类型( 护肤、食品等)4 个方面的信息,并且根据原始输入和标签( 点击/ 未点击)构造出了决策树,如图1.2 所示。于是,每一条从根节点到叶节点的路径都可以看成一种特征组合的方
2021-04-13 12:06:25
408
原创 什么是组合特征?如何处理高维组合特征?
为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征。以广告点击预估问题为例,原始数据有语言和类型两种离散特征,表1.2 是语言和类型对点击的影响。为了提高拟合能力, 语言和类型可以组成二阶特征,表1.3 是语言和类型的组合特征对点击的影响。我认为用户ID一般应该是不需要组合的,这个东西实在想不到有什么理由需要组合到特征向量中,如果发现了,我再来说明。...
2021-04-13 11:41:11
392
原创 在对数据进行预处理时,应该怎样处理类别型特征?
机器学习各种资料涉及到的知识,在我不理解和认为不对的地方做了补充和修改,若有错误欢迎指教!常用的基本处理方法:序号编码( Ordinal Encoding ) :序号编码通常用于处理类别间具有大小关系的数据。例如成绩,可以分为低、中、高三档,并且存在“高>中>低” 的排序关系。序号编码会按照大小关系对类别型特征赋予一个数值10 , 例如高表示为3 、中表示为2、低表示为1 , 转换后依然保留了大小关系。独热编码( One-hot Encoding ) :独热编码通常用于处理类别间不具
2021-04-13 10:54:37
384
原创 机器学习之上溢,下溢,病态矩阵
数值分析:矩阵求逆-奇异性、条件数**机器学习各种资料涉及到的知识,在我不理解和认为不对的地方做了补充和修改,若有错误欢迎指教!**机器学习算法通常需要大量的数值计算。这通常是指通过迭代过程更新解的估计值来解决数学问题的算法,而不是通过解析过程推导出公式来提供正确解的方法。常见的操作包括优化(找到最小化或最大化函数值的参数)和线性方程组的求解。对数字计算机来说实数无法在有限内存下精确表示,因此仅仅是计算涉及实数的函数也是困难的。4.1 上溢和下溢连续数学在数字计算机上的根本困难是,我们需要通过
2021-04-13 00:10:57
671
原创 全概率公式
若事件A1,A2,…构成一个完备事件组且都有正概率,则对任意一个事件B,有如下公式成立:P(B)=P(BA1)+P(BA2)+…+P(BAn)=P(B|A1)P(A1) + P(B|A2)P(A2) + … + P(B|An)P(An).此公式即为全概率公式。特别地,对于任意两随机事件A和B,有如下成立:其中A和 Aˉ\bar{A}Aˉ 为对立事件。...
2021-04-12 18:55:25
3500
原创 特征工程——为什么要对数值类型的特征做归一化?
百面机器学习涉及到的问题,在我不理解和认为不对的地方做了补充和修改,若有错误欢迎指教!为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性。例如,分析一个人的身高和体重对健康的影响, 如果使用米( m )和千克( kg ) 作为单位, 那么身高特征会在1.6 1.8m,体重特征会在50 - 100kg 的范围内,分析出来的结果显然会倾向于数值差别比较大的体重特征。想要得到更为准确的结果, 就需要进行特征归一(Normalization ) 处理,使各指标处于同一数值量级
2021-04-12 18:21:32
499
转载 221. 最大正方形
https://leetcode-cn.com/problems/maximal-square/solution/zui-da-zheng-fang-xing-by-leetcode-solution/最大正方形在一个由 ‘0’ 和 ‘1’ 组成的二维矩阵内,找到只包含 ‘1’ 的最大正方形,并返回其面积。示例 1:输入:matrix = [[“1”,“0”,“1”,“0”,“0”],[“1”,“0”,“1”,“1”,“1”],[“1”,“1”,“1”,“1”,“1”],[“1”,“0”,“0
2021-04-02 15:44:56
112
原创 228. 汇总区间
汇总区间给定一个无重复元素的有序整数数组 nums 。返回 恰好覆盖数组中所有数字 的 最小有序 区间范围列表。也就是说,nums 的每个元素都恰好被某个区间范围所覆盖,并且不存在属于某个范围但不属于 nums 的数字 x 。列表中的每个区间范围 [a,b] 应该按如下格式输出:“a->b” ,如果 a != b“a” ,如果 a == b示例 1:输入:nums = [0,1,2,4,5,7]输出:[“0->2”,“4->5”,“7”]解释:区间范围是:[0,2].
2021-04-02 14:11:11
102
1
转载 47. 全排列 II
https://leetcode-cn.com/problems/permutations-ii/solution/quan-pai-lie-ii-by-leetcode-solution/借鉴一下官方的解答,非常完美,以备欣赏:class Solution { vector<int> vis;public: void backtrack(vector<int>& nums, vector<vector<int>>& a
2021-03-31 11:50:15
100
原创 978. 最长湍流子数组
https://leetcode-cn.com/problems/longest-turbulent-subarray/当 A 的子数组 A[i], A[i+1], …, A[j] 满足下列条件时,我们称其为湍流子数组:若 i <= k < j,当 k 为奇数时, A[k] > A[k+1],且当 k 为偶数时,A[k] < A[k+1];或 若 i <= k < j,当 k 为偶数时,A[k] > A[k+1] ,且当 k 为奇数时, A[k] < A
2021-03-30 21:51:48
152
原创 977. 有序数组的平方
给你一个按 非递减顺序 排序的整数数组 nums,返回 每个数字的平方 组成的新数组,要求也按 非递减顺序 排序。示例 1:输入:nums = [-4,-1,0,3,10]输出:[0,1,9,16,100]解释:平方后,数组变为 [16,1,0,9,100]排序后,数组变为 [0,1,9,16,100]示例 2:输入:nums = [-7,-3,2,3,11]输出:[4,9,9,49,121]提示:1 <= nums.length <= 104-104 <= nums
2021-03-30 17:49:49
134
转载 面试题 17.13. 恢复空格
转载自:https://leetcode-cn.com/problems/re-space-lcci/solution/python-3dong-tai-gui-hua-by-acw_jpch89-4/原作者很6面试题 17.13. 恢复空格哦,不!你不小心把一个长篇文章中的空格、标点都删掉了,并且大写也弄成了小写。像句子"I reset the computer. It still didn’t boot!“已经变成了"iresetthecomputeritstilldidntboot”。在处理标点
2021-03-29 19:13:08
71
转载 面试题 17.12. BiNode
转载自:https://leetcode-cn.com/problems/binode-lcci/solution/binode100jian-dan-yi-dong-by-zui-weng-jiu-xian/二叉树数据结构TreeNode可用来表示单向链表(其中left置空,right为下一个链表节点)。实现一个方法,把二叉搜索树转换为单向链表,要求依然符合二叉搜索树的性质,转换操作应是原址的,也就是在原始的二叉搜索树上直接修改。返回转换后的单向链表的头节点。注意:本题相对原题稍作改动示例:输入
2021-03-29 17:40:32
92
原创 面试题 17.10. 主要元素
面试题 17.10. 主要元素数组中占比超过一半的元素称之为主要元素。给定一个整数数组,找到它的主要元素。若没有,返回-1。示例 1:输入:[1,2,5,9,5,9,5,5,5]输出:5示例 2:输入:[3,2]输出:-1示例 3:输入:[2,2,1,1,1,2,2]输出:2说明:你有办法在时间复杂度为 O(N),空间复杂度为 O(1) 内完成吗?class Solution: def majorityElement(self, nums: List[int]) ->
2021-03-29 17:07:41
106
原创 面试题 17.11. 单词距离
有个内含单词的超大文本文件,给定任意两个单词,找出在这个文件中这两个单词的最短距离(相隔单词数)。如果寻找过程在这个文件中会重复多次,而每次寻找的单词不同,你能对此优化吗?示例:输入:words = [“I”,“am”,“a”,“student”,“from”,“a”,“university”,“in”,“a”,“city”], word1 = “a”, word2 = “student”输出:1提示:words.length <= 100000class Solution: de
2021-03-29 17:06:35
112
转载 [编程题]特征提取
原题链接:https://www.nowcoder.com/question/next?pid=16516564&qid=362292&tid=42589208小明是一名算法工程师,同时也是一名铲屎官。某天,他突发奇想,想从猫咪的视频里挖掘一些猫咪的运动信息。为了提取运动信息,他需要从视频的每一帧提取“猫咪特征”。一个猫咪特征是一个两维的vector<x, y>。如果x_1=x_2 and y_1=y_2,那么这俩是同一个特征。因此,如果喵咪特征连续一致,可以认为喵咪在运动。
2021-03-23 22:42:43
128
转载 [编程题]雀魂启动!
牛客7587184号小包最近迷上了一款叫做雀魂的麻将游戏,但是这个游戏规则太复杂,小包玩了几个月了还是输多赢少。于是生气的小包根据游戏简化了一下规则发明了一种新的麻将,只留下一种花色,并且去除了一些特殊和牌方式(例如七对子等),具体的规则如下:总共有36张牌,每张牌是1~9。每个数字4张牌。你手里有其中的14张牌,如果这14张牌满足如下条件,即算作和牌14张牌中有2张相同数字的牌,称为雀头。除去上述2张牌,剩下12张牌可以组成4个顺子或刻子。顺子的意思是递增的连续3个数字牌(例如234,567等
2021-03-23 21:07:07
302
原创 [编程题]万万没想到之聪明的编辑
我叫王大锤,是一家出版社的编辑。我负责校对投稿来的英文稿件,这份工作非常烦人,因为每天都要去修正无数的拼写错误。但是,优秀的人总能在平凡的工作中发现真理。我发现一个发现拼写错误的捷径:三个同样的字母连在一起,一定是拼写错误,去掉一个的就好啦:比如 helllo -> hello两对一样的字母(AABB型)连在一起,一定是拼写错误,去掉第二对的一个字母就好啦:比如 helloo -> hello上面的规则优先“从左到右”匹配,即如果是AABBCC,虽然AABB和BBCC都是错误拼写,应该优
2021-03-23 14:38:00
73
原创 1004 成绩排名python实现
num = int(input())name = []className = []mark = []for i in range(num): s = input() x = s.split(" ", 2) name.append(x[0]) className.append(x[1]) mark.append(int(x[2]))indexOfMax = mark.index(max(mark))print(name[indexOfMax]+" "+ c
2021-03-01 23:44:24
384
原创 1003 我要通过!python实现
import renum = int(input())for i in range(num): inputStr = input() # 在字符串中进行匹配 if re.match(r'A*PA+TA*', inputStr): # 以字符P,T进行分段 a = re.split(r'[P|T]', inputStr) # 条件判断 # print(a[0], a[1], a[2]) if a[0]
2021-03-01 23:37:18
178
原创 1002 写出这个数 python实现
import sysclass Test: numberToCode = ["ling", "yi", "er", "san", "si", "wu", "liu", "qi", "ba", "jiu"] number = "" result = 0 def __init__(self, numberString): self.number = numberString def Calculate(self): for i i
2021-02-27 23:08:47
158
1
原创 1001 害死人不偿命的(3n+1)猜想 python实现
import sysclass Test: num = 0 count = 0 def __init__(self, n): self.num = n def Calculate(self): if self.num == 1: print(self.count) return 0 elif self.num % 2 == 0: self.coun
2021-02-27 22:51:26
279
转载 ubuntu server 20安装mysql
https://blog.csdn.net/weixin_38924500/article/details/106261971grant all privileges on . to ‘root’@’%’ identified by ‘hadoop’ with grant option;flush privileges;
2021-01-16 16:35:16
230
转载 虚拟机ubuntu20 server系统中安装mysql遇到的一系列坑
https://blog.csdn.net/weixin_43368533/article/details/105970587
2021-01-16 16:18:14
205
转载 ubuntu18/20修改ip地址
https://www.jb51.net/article/187742.htmhttps://blog.csdn.net/ljuice/article/details/87455839
2021-01-16 11:15:25
261
转载 hadoop 介绍 / 概览
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),其中一个组件是HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS
2021-01-15 16:20:07
118
转载 GBDT算法原理以及实例理解
参考博客:https://blog.csdn.net/zpalyq110/article/details/79527653以及统计学习方法第五章回归树的生成,作者讲得非常好
2021-01-04 11:10:09
138
转载 《统计学习方法》C++实现kd tree
参考:https://www.cnblogs.com/90zeng/p/kdtree.html作者写的非常好,我只是改动成了我习惯的格式,稍许小改动,感谢作者#include <iostream>#include <vector>#include "kd_tree.hpp"using namespace std;int main(){ int data[6][2] = {{2,3},{5,4},{9,6},{4,7},{8,1},{7,2}}; v
2020-12-16 16:09:20
324
1
原创 《统计学习方法》感知机学习算法对偶形式C++实现
部分函数采用一般形式的文件中的函数https://blog.csdn.net/weixin_43087913/article/details/111244856main.cpp#include <iostream>#include <vector>#include <cmath>#include <string.h>#include "perceptron.h"#include "perceptron2.h"using namespace s
2020-12-16 10:30:32
97
原创 《统计学习方法》感知机学习算法原始形式C++实现
理论知识参考《统计学习方法》第二版第二章main.cpp#include <iostream>#include <vector>#include "perceptron.h"using namespace std;int main(){ vector<double> w; double b; vector<vector<double>> x; vector<int> y; do
2020-12-16 08:36:13
172
《机器学习实战》4.7.12 用Softmax回归进行批量梯度下降训练,实现提前停止法(不使用Scikit-Learn)Jupyter文件
2020-11-06
flink1.13.6如何集成parquet avro
2023-06-26
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅