cf_wu95-CSDN博客

原创 Linux下Python脚本与Shell脚本的使用区别

摘自：https://www.zhihu.com/question/30548640/answer/49161020可以参看Google code style（https://google-styleguide.googlecode.com/svn/trunk/shell.xml）里一段：- If you find you need to use arrays for anything m...

2020-04-03 10:52:44 1038 1

原创 Join

参考博客：https://blog.csdn.net/leying521/article/details/93197951inner join(内连接，只有进行连接的两个表中都存在与连接条件相匹配的数据才会被留下来) 。内连接是最常见的一种连接，它也被称为普通连接，而E.FCodd最早称之为自然连接。其中inner可以省略。inner join == join 等价于早期的连接语法。 lef...

2020-04-02 15:22:38 224

原创流水表与拉链表区分；增量表，快照表与全量表区分

参考博客：https://www.cnblogs.com/wqbin/p/10223988.htmlhttps://blog.csdn.net/sheep8521/article/details/89187601https://blog.csdn.net/qq_21159963/article/details/86761589全量表存放最新记录，但是不能查历史。快照表可以...

2020-04-01 12:36:21 2900

转载 seq2seq相关资料加重点总结

RNN/LSTMRNNTO LSTM:https://www.cnblogs.com/jiangxinyang/p/9362922.html1.U,W,V这三个矩阵就是我们的模型的线性关系参数，它在整个RNN网络中是共享的。也正是因为是共享的，它体现了RNN的模型的“循环反馈”的思想。RNN Encoder-Decoder and GRU链接地址：https://zhuanl...

2019-07-08 14:37:10 192

原创各类衡量指标总结

MAE(Mean Absolute Error) 平均绝对误差基础的评估方法，后面的方法一般以此为参考对比优劣。MSE(Mean Square Error) 平均平方差对比MAE，MSE可以放大预测偏差较大的值，可以比较不同预测模型的稳定性，应用场景相对多一点。RMSE(Root Mean Square Error) 方均根差 ...

2019-06-20 16:58:30 3227

转载 Pandas常用总结

1.ix & iloc &lochttps://blog.csdn.net/hecongqing/article/details/61927615

2019-06-12 11:25:08 148

原创数组

1.两个数组，求交集。用Hash表。package com.interview.array;import java.util.*;/** * 求数组交集 */public class ArrayIntersection { public static void main(String[] args) { int[] a = new int[]{1, 2,...

2019-06-06 16:33:25 143

原创图基础

深度优先，广度优先，dijkstra最短路径问题。注：返回相应路径代码仍未鲁邦。package com.interview.graph;import java.util.ArrayList;import java.util.LinkedList;import java.util.Queue;//时间复杂度// 邻接表：深度优先和广度优先 O（V+E）// 邻接矩阵：深度优先...

2019-05-29 20:22:54 4138

原创树基础

包含树的深度优先遍历（递归、非递归），广度优先遍历，先序遍历（递归、非递归），中序遍历（递归、非递归），后序遍历（递归、非递归）。二叉树的四种遍历方式分别是：先序、中序、后序和层次。它们的时间复杂度都是O(n)，因为它们只访问每个节点一次，不存在多余的访问。三种深度优先遍历方法（先序、中序和后序）的时间复杂度是O(h)，其中h是二叉树的深度，额外空间是函数递归的调用栈产生的，而不是显示的额...

2019-05-27 22:28:03 222

原创特征工程读书笔记

特征工程特征工程的前提是有足够多的数据，其次是从大量数据中提取关键信息并表示为模型所需要的形式。特征工程分为三部分：特征构建（这是特征交叉的一部分，属于特征提取），特征提取和特征选择。参考https://www.cnblogs.com/wxquare/p/5484636.html特征提取特征工程的第一步是理解业务数据和业务逻辑。我们需要将此信息表示为数值类型，即为特征抽取的过...

2019-05-26 21:09:26 266

原创代码鲁棒性

1.string to int ，要注意的点一堆。public class Solution { /** * 鲁棒性检测 * @param str * @return */ public int atoi(String str) { int res=0,n=str.length();//res为结果字符串 ...

2019-05-23 23:31:40 474

原创求第K大算法总结

1.面试题：从n个数中找出第K大的数https://blog.csdn.net/orangefly0214/article/details/865274622.利用随机选择算法求第k大。public class findK { public static int findKThLargest(int[] nums,int k){ return findK(num...

2019-05-23 11:18:42 1100

原创 TopK算法总结

1.topK总结https://mp.weixin.qq.com/s/FFsvWXiaZK96PtUg-mmtEw2.优先级队列求解topKimport java.util.PriorityQueue;public class TopK { public static void main(String[] args) {//增加删除为offer, poll ...

2019-05-23 10:53:49 304

原创动态规划

1.编辑距离import java.util.Scanner;public class dp02 { public static void main(String[] args) { Scanner scan = new Scanner(System.in); String aStr = scan.nextLine(); Strin...

2019-05-23 09:17:57 136

原创反转链表

包括三个版本，递归、栈、以及算法版package com.test;import java.util.Stack;public class ReverseList { public static void reverse(Node head) { if (head.next == null || head == null) {// 局部变量表内容越多，栈帧越...

2019-05-19 21:37:47 133

转载 java 两个大数相乘

分析见原博客，代码整理(注释加说明)如下：https://blog.csdn.net/outsanding/article/details/79472376package com.interview.algorithm;public class Mutiply { public static String multiply(String num1, String num...

2019-05-16 21:49:22 895

转载 Java实现字符串反转

将一个字符串进行反转https://www.cnblogs.com/binye-typing/p/9260994.htmlpackage com.interview.algorithm;public class StringReverse { // StringBuffer public static String reverse1(String str) { ...

2019-05-16 20:38:52 848

原创判断括号是否合法

package com.interview.algorithm;import java.util.HashMap;import java.util.Map;import java.util.Stack;public class ValidCheck { public static boolean isValid(String s){ //stack push/...

2019-05-16 20:20:43 257

原创 SQL基础

基础主键的值不允许修改，也不允许复用（不能使用已经删除的主键值赋给新数据行的主键）。 SQL 语句不区分大小写。使用更新和删除操作时一定要用 WHERE 子句，不然会把整张表的数据都破坏。可以先用 SELECT 语句进行测试，防止错误删除。 SQL语句中----删除表数据drop、truncate和delete的用法 DISTINCT关键字：相同值只会出现一次。它作用于所有列，也...

2019-05-12 10:15:43 164

原创用户画像

用户画像是真实用户的虚拟代表。也就是用户信息标签化，给用户打标签（属性）。作用：和营销和推荐挂钩。怎么建立画像数据分为静态数据和动态数据。静态信息：用户相对稳定的信息，如性别，地域。动态数据：用户不断变化的行为信息，如浏览网页，搜索商品等。应用1.各种推荐系统。2.广告投放。3.用户需要什么，企业就生产啥，企业生产啥就卖给相应的用户...

2019-05-09 15:13:38 266

原创 Xgboost调参策略

Xgboost参数- 'booster':'gbtree',梯度提升决策树- 'objective': 'multi:softmax', 多分类的问题- 'num_class':10, 类别数，与 multisoftmax 并用- 'gamma':损失下降多少才进行分裂，这个需要调一下，越大越不易过拟合，但是模型性能会降低。- 'max_depth':12, 构建树的深度，越大越容...

2019-05-08 20:55:06 629

原创线性模型与非线性模型判别

线性模型可以是用曲线拟合样本，但是分类的决策边界一定是直线的，例如logistics模型。区分是否为线性模型：最简单判别一个模型是否为线性的，只需要判别决策边界是否是直线，也就是是否能用一条直线来划分看一个乘法式子中自变量x前的系数w,如果w只影响一个x（注：应该是说x只被一个w影响），那么此模型为线性模型。(这时候是与神经网络进行对比，不是很准确，可以看下面LR) 机器学习中线性模型和...

2019-05-06 17:19:52 5280

转载如何判断使用lr和svm哪个效果好？

源自吴恩达的机器学习课程：n是数据中特征的数量 m是样本数1、如果n相对于m来说很大，或者跟样本数量差不多，则使用LR算法或者不带核函数的SVM（线性核函数）n远大于m，n=10000，m=10-10002、如果n很小，m的数量适中（n=1-1000，m=10-10000）使用带有核函数的SVM算法。一般使用高斯核3、如果n很小，m很大（n=1-1000，m=50000+）手动增加更...

2019-05-06 16:43:05 446

原创降维

PCA判断降维维数：在判断降维的维数时，可以通过np.cumsum(var_exp)来判断要降多少维，var_exp表示排好序的特征值。求得的list表示前n个特征值的重要程度之和目的：投影后的投影的值尽可能分散，方差尽可能大。优化目标：将一组N维向量降为K维（K大于0，小于N），目标是选择K个单位正交基，使原始数据变换到这组基上后，各字段两两间协方差为0，字段的方差则尽可能大1....

2019-05-06 15:02:21 133

原创支持向量机

1.支持向量机可以做多分类任务2.支持向量机可以通过核技巧将原始空间映射到高维，实际的计算是在低维空间完成的。这样的计算与在高维空间中直接进行求解结果是一致的。...

2019-05-05 17:17:27 122

原创推荐系统

对于基于用户的协同过滤所存在问题的解决方案：相似度计算使用皮尔逊相似度考虑共同打分的数目对打分进行归一化设置相似度阈值tip:1.在处理数据之前进行一波减均值的操作2.处理冷启动问题可以采取推荐排行榜单...

2019-05-05 09:45:06 146

原创自然语言处理小项目-新闻分类

读入数据使用结巴分词器进行分词使用停词表进行过滤（例如哈工大停词表）将过滤后的单词进行词频统计，生成词云（wordcloud）可以根据jieba.analyse包使用对原始数据进行处理，提取出每条新闻的关键词。使用gensim自然语言处理包对过滤后的数据进行处理，得到LDA主题模型（类似Kmeans自己指定主题数，返回主题和当前主题的关键字以及关键词的重要程度，例如：0.006...

2019-05-03 22:36:17 791

原创 Python常用小结

a = []#list，各元素可不同a[-1]#最后一个元素a.append('Adam')a.insert(1, 'Jack')a.pop()#删除末尾元素，可指定位置a = () #tuple和list非常类似(用法也类似，通过下标)，但是tuple一旦初始化就不能修改a = (1,)#只有一个元素的tuplea = {}#dicta.get('123')a.pop...

2019-05-03 11:42:30 128

原创集成学习

随机森林：数据采样：自助采样法。特征选择随机：从当前节点d个特征中随机选出k（k= logd）个特征,然后再选择当前节点的最优划分特征。1.数据采样：对原始数据进行 60%-80%的采样。2.在stacking时，可以根据结果样本的预测分布将表现不好的模型去除。通过两层来做。3.在stacking集成第二步时，通过交叉验证获得完整数据集。mlens.ensemble imp...

2019-04-12 14:34:06 111

原创 GBDT与XGBOOT

总结：https://blog.csdn.net/legendavid/article/details/78904353GBDT1.Boosting的最大好处在于，每一步的残差计算其实变相地增大了分错instance的权重，而已经分对的instance则都趋向于0。这样后面的树就能越来越专注那些前面被分错的instance。(残差存在的意义，防止过拟合）2.Adaboost的方法被实...

2019-04-12 10:57:31 268

原创逻辑回归求解

注意点:一般来讲，更多的迭代次数会使损失下降的更多。随机梯度下降更快，但是我们相应的为了获得相应的结果需要迭代的次数也需要更多，所以还是用batch的比较合适！！！注意要对数据进行打乱（shuffer）。逻辑回归LR的特征为什么要先离散化对于年龄等特征首先应该离散化的原因：1.简化模型。计算简单。（原先是连续值，比如年龄，现在转换成1,2,3,4,5的离散值，计算简单...

2019-04-11 12:49:22 607

原创大数据实战

本地数据集上传至数据仓库Hive1.删除字段名称sed -i '1d' small_user2.对字段进行切分（预处理），生成的user_table.txt。注:不要直接打开，文件过大，会出错.head -10 user_table.txt3.为了导入到 Hive，需要先导入到HDFS中。4.启动hive,先启动Sql Server。2.创建数据库和外部表。注...

2019-04-01 12:04:58 544

原创竞赛笔记

全球城市计算AI挑战赛信息训练：开放了20190101至20190125共25天地铁刷卡数据记录，共涉及3条线路81个地铁站约7000万条数据作为训练数据（Metro_train.zip），供选手搭建地铁站点乘客流量预测模型。训练数据（Metro_train.zip）解压后可以得到25个csv文件，每天的刷卡数据均单独存在一个csv文件中，以record为前缀。如2019年1月1日...

2019-03-25 22:30:16 280

原创数据挖掘类竞赛笔记

MSE损失函数惩罚损失力度更大，最好要用MSE来当损失函数而不是MAE.MSE、MAE对异常值进行处理。步骤：数据探索分析：1.数据基本情况，看是否有缺失值，各字段数据类型，数值型字段的统计分布等。2.观察数据集的密度曲线，看看以后是否需要对数据进行填补以及处理等。3.类别特征中不同取值下、目标变量的分布。（例如看这个特征对信用分的影响，比如看不看电影对信用分有没有影响）。...

2019-03-24 15:59:23 290

原创网络挖掘（Graph Mining）

网络挖掘模型社交网络分析：Pandas+Matplotlib。推荐系统：大概率余弦相似性、协同过滤。风控：LR（逻辑回归）、XGBoost这些成熟的模型占据。搜索引擎、知识图谱、城市计算。用处链路预测（最短路径）关键节点挖掘（寻找权威节点）网络遍历（搜索与检索）社区发现（组群画像）相似节点挖掘（相似性推荐）...

2019-03-22 21:43:08 2118

原创数据挖掘面试模型对比

决策树ID3优点：是理论清晰、方法简单、学习能力较强缺点：只能处理分类属性的数据，不能处理连续的数据；划分过程会由于子集规模过小而造成统计特征不充分而停止；ID3算法在选择根节点和各内部节点中的分支属性时，采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性，在有些情况下这类属性可能不会提供太多有价值的信息。C4.5采用二分法对连续属性进行处理。先将特征取值排序，...

2019-03-16 16:25:17 278

原创关于SCI、EI、CCF、DASFAA

期刊会议的论文，sci，ieee，ccf 等等他们之间的关系对于期刊、会议、SCI、EI、CCF等上一个链接写的很清楚。在这我只做一些补充，如有错误请批评指正。1.SCI一般收录高质量的期刊的文章，会议文章一般很少收录，除非是很高质量的会议文章。2.SCI分区知识（JCR分区与中科院分区区别）以及查询方法。3.SCI一区难度相当于CCF A类会议或期刊的难度。SCI二区的难度相当于...

2019-02-23 16:15:14 18840 1

原创 Linux分区知识

根据个人理解讲解Linux分区知识，以100G大小为例。/boot---一般分区类型为主分区，包括操作系统的内核及在引导过程中使用的文件。一般来说，挂载的分区只要200M大小就足够了（一般教程里都给200M，根据经验这个分区经常满，太影响心情了，内存多的建议分1G）。接下来讲的分区，分区类型都是逻辑分区。/-------根目录，唯一必须挂载的目录。有点类似于D,E,F盘的合集，很多东西...

2019-02-21 19:49:37 240

原创 Ubuntu 切换系统默认启动内核

1.首先找到内核名称。grep menuentry /boot/grub/grub.cfg例如我的最后显示如下，复制所要的内核名称（例如我需要的Ubuntu，Linux 4.15.0-29-generic）。if [ x"${feature_menuentry_id}" = xy ]; then menuentry_id_option="--id" menuentry_id...

2019-01-07 09:43:00 23195 11

原创林子雨hive实践教程错误笔记

1.注意最后要加上这一句话，没有这句话，就会报错。alter database hive set dbproperties('edited-by'='hadoop');#为hive设置键值对属性hive-site.xml的正确配置方式应加上&amp;useSSL=false，否则会出现warning提示。其中&amp;是&在HTML中对应的转义符。<c...

2019-01-04 16:40:19 1706 1

空空如也

空空如也