安于此生_-CSDN博客

原创 leetcode-dp

动态规划最长回文子序列516class Solution: def longestPalindromeSubseq(self, s: str) -> int: n = len(s) dp = [[0] * n for _ in range(n)] # 从后往前遍历，dp[i][j] 表示从i-j 的最长回文子序列长度。结果应该是dp[0][n-1] for i in range(n - 1, -1, -1):

2021-12-14 13:52:13 278

原创排序算法(python 版本)

冒泡排序文章目录冒泡排序插入排序选择排序快排归并堆排序def bubble_sort(nums): # 两两对比，一直往前遍历。如果前一个数大，就交换顺序（每次把最大的数字放在最后） # 大的数字沉到低 n = len(nums) for i in range(n): for j in range(1, n - i): if nums[j - 1] > nums[j]: nums[j - 1],

2021-12-06 16:37:20 215

转载 sql语句学习

1、Distinct选取所有的值的时候不会出现重复的数据Select distinct user_name,user_age from user2、查询user_age不等于12的数据Select * from user where user_age <> 123、And和or在where子语句中把两个或多个条件结合起来。如果需要两个条件都成立就是用and如果只需要其中一个...

2018-09-25 14:34:40 251

转载 hive和

Hive和HbaseHive和Hbase是两种基于Hadoop的不同技术–Hive是一种类SQL的引擎，并且运行MapReduce任务，Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库。当然，这两种工具是可以同时使用的。就像用Google来搜索，用FaceBook进行社交一样，Hive可以用来进行统计查询，HBase可以用来进行实时查询，数据也可以从Hive写到Hba...

2018-09-25 10:37:04 233

转载近期总结（9月）

LRU原理

2018-09-23 21:39:05 210

转载 hadoop学习

文章目录实现机制实现机制####### hdfs ###########hadoop fs -put 文件名路径url # 传文件hadoop fs -get 文件名路径url # 下载文件###### mapreduce #########hadoop -jar 名字.jar pi 5 5 # 参数（5个map。5个reduce）# 可以指定输入...

2018-09-23 15:28:07 373

原创 hadoop第一天基本概念、伪分布式集群安装

解决的问题：海量数据存储（HDFS）海量数据分析（MapReduce）资源调度（YARN）google的是（GFS、MapReduce、BigTable）

2018-09-22 19:30:53 180

转载智力题（更新中）

一根不均匀的绳子，全部烧完需要1个小时，问怎样烧能计时1个小时15分钟一根绳子从两头烧，烧完就是半个小时。一根要一头烧，一根从两头烧，两头烧完的时候（30分），将剩下的一根另一端点着，烧尽就是45分钟。再从两头点燃第三根，烧尽就是1时15分。...

2018-09-21 21:59:57 303

转载 keras实现attention(还不太懂)

from keras import backend as Kfrom keras.engine.topology import Layerfrom keras import initializers, regularizers, constraintsclass Attention_layer(Layer): """ Attention operation, wit...

2018-09-21 20:28:03 10216 1

转载 RNN、LSTM基础

RNNDNN的无法对时间序列上的变化进行建模，所以出现了RNN，神经元的输出可以在下一个时间戳直接作用到自身。但是RNN出现梯度消失，长短时记忆单元LSTM，通过门的开关实现时间上记忆功能，并防止梯度消失。RNN既然能继承历史信息，是不是也能吸收点未来的信息呢？双向RNN、双向LSTM，同时利用历史和未来的信息。LSTMGRUGRU对LSTM做了两个大改动1.将输入门、遗忘门、输...

2018-09-21 11:23:20 435

转载双向 LSTM

原文链接 https://blog.csdn.net/jojozhangju/article/details/51982254 本文结构：为什么用双向 LSTM 什么是双向 LSTM 例子为什么用双向 LSTM？单向的 RNN，是根据前面的信息推出后面的，但有时候只看前面的词是不够的，例如，我今天不舒服，我打算__一天。只根据‘不舒服‘，可能推出我打算‘去医院‘...

2018-09-21 11:11:18 3309

转载 HMM算法

前向算法

2018-09-03 10:53:42 554

转载 EM算法

这个讲的很清楚

2018-09-03 10:51:57 185

转载 lgb学习

lgb

2018-07-23 19:54:28 890

转载 xgboost参数

# learning_rate# n_estimators# min_child_weight# gamma # scale_pos_weight 样本不平衡时用# subsample初始学习率，base_model个数 max_depth和min_weight gamma值 subsample和colsample_bytree 正则化参数调优降低学习率，训练更多的树...

2018-07-20 15:40:55 299

转载 RF参数

class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf...

2018-07-17 19:12:59 2237

转载 sklearn.svm包中的SVC(kernel=”linear“)和LinearSVC的区别

链接1、LinearSVC使用的是平方hinge loss，SVC使用的是绝对值hinge loss （我们知道，绝对值hinge loss是非凸的，因而你不能用GD去优化，而平方hinge loss可以） 2、LinearSVC使用的是One-vs-All（也成One-vs-Rest）的优化方法，而SVC使用的是One-vs-One （其实我也不明白，如果有人明白恳请指教。。。） 3...

2018-07-08 18:01:05 4688 1

原创文本匹配学习，更新中

#import numpy as np,pandas as pddf_val = pd.read_csv('validation_data_cx.csv',encoding = 'utf-8')df_val.head(3)df_val.to_csv('validataon_data_cx.csv',encoding = 'utf-8')def mergedata(df): ...

2018-06-26 12:50:50 331

转载 keras里面如何计算f1-score

### 以下链接里面的codeimport numpy as npfrom keras.callbacks import Callbackfrom sklearn.metrics import confusion_matrix, f1_score, precision_score, recall_scoreclass Metrics(Callback):def on_train_begi...

2018-06-15 19:08:50 9767

原创 python数据分析常用方法-1[更新中]

了解数据读取数据保存数据数据的各种信息数据处理DataFrame拆分DataFrame 分组DataFrame随机选取数据创建空的DataFrame文本相关了解数据读取数据说明:数据按照tab的方式分隔df = pd.read_csv('../input/data_train.csv',sep = '\t',encoding='GB...

2018-06-13 21:37:37 298

转载 python读取csv数据（添加列名，指定分隔方式）

添加列名：pd.read_csv(file, header=None, names = ['a','b','c'] )names为指定的名字数据tab分隔的时候去读方式sep指定df = pd.read_csv('../input/data_train.csv',sep = '\t',encoding='GBK')...

2018-06-13 18:21:17 36073

转载 FTRL学习

总结学习资源：基于FTRL的在线CTR预测算法在线学习算法FTRL详解

2018-06-12 15:40:12 198

原创 lgb参数

参数： params = {'learning_rate': 0.2, # default=0.1, type=double, alias=shrinkage_rate 'application': 'binary', # default=regression，任务类型 'num_leaves': 31, #...

2018-06-12 15:36:08 23188 3

转载 FM和FFM学习

FM后半部分公式化简，时间复杂度从O(kn2)降到O(kn)O(kn2)降到O(kn)O(kn^2)降到O(kn)∑i=1n−1∑j=i+1n(VTiVj)xixj∑i=1n−1∑j=i+1n(ViTVj)xixj\begin{aligned}\sum_{i=1}^{n-1}\sum_{j=i+1}^n(V_i^TV_j)x_ix_j \end{aligned} =12(∑i=1...

2018-06-12 14:49:59 215

原创 skleran库学习

LRPipeline数据划分lr.predict(x)和lr.predict_proba(x)决策树：随机森林GBMXGBoostSVM聚类LRsklearn学习-linear_model.LinearRegression方法： - score(X, y[,]sample_weight) 返回对于以X为samples，以y为target的预测...

2018-06-07 11:47:52 578

转载 keras文档学习

序列模型sequenceModel常用的model属性Model模型的方法回调函数Callbacks（实际上是一个类）Flatten层嵌入层 ==Embedding==循环层LSTM层参数文本预处理Tokenizer(分词器)类方法：属性：句子分割text_to_word_sequence函数式（Functional）模型序列模型...

2018-06-07 11:36:38 343

原创 python数据分析——pandas，numpy，matplot

pandaspandas.categoricalmap函数numpyargsort()numpy的ravel()meshgrid函数np.splitmatplotpandaspandas.categorical>>> pd.Categorical([1, 2, 3, 1, 2, 3])[1, 2, 3, 1, 2, 3]...

2018-06-07 11:06:18 1023

原创 Seaborn画图库

画图Seaborn Seaborn 是由斯坦福大学提供的一个python库，比matplotlib简单。 1. 样式控制：axes_style()和set_style() 2. 用despine()进行边框控制:删除上方和右方坐标轴上不需要的边框,参数offect和trim 3. 通过 plotting_context() 和 set_context() 调整绘图元素链接：http...

2018-06-07 10:47:07 444

转载特征选择（含代码）

当数据预处理完成后，我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说，从两个方面考虑来选择特征：特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。特征与目标的相关性：这点比较显见，与目标相关性高的特征，应当优选选择。除移除低方差法外，本文介绍的其他方法均从相关性考虑。根据特征选择的形式又可...

2018-06-07 10:18:37 6600 2

转载 @contextmanager方法——python

@contextmanager方法：用来创建一个上下文管理器。这种对象实现了enter() 和 exit() 方法。# 中规中矩的写法f = open("test.txt", "w")f.write("hello world!")f.close()# 采用with结构with open("test.txt", "w") as f: f.write("hello world.

2018-06-06 16:54:05 883

转载 python-遍历数据

dataframe按照行遍历import pandas as pddict=[[1,2,3,4,5,6],[2,3,4,5,6,7],[3,4,5,6,7,8],[4,5,6,7,8,9],[5,6,7,8,9,10]]data=pd.DataFrame(dict)print(data)for indexs in data.index: print(data.loc[inde...

2018-06-05 21:00:29 2414

原创 python读取Json文件保存为csv格式

两种方法load，读取的是整个文件，每个json之间用”,”分割开。此时文件开头”[” ，末尾加”]”loads，写在for循环里面一行一行的读取。每个json之间没有”,”的时候使用可以使用json在线解析，检验下文件是否合格 json在线解析 json在线解析2下面开始写代码读取import jsonimport pandas as pdloadsdf = ...

2018-06-03 15:12:46 7491 1

转载 DataFrame删除行、列

你在使用pandas处理DataFrame中是否遇到过如下这类问题？我们需要删除某一列所有元素中含有固定字符元素所在的行，比如下面的例子：如果要删除的元素固定有更简单的方法，可参考另一篇博文：http://blog.csdn.net/htbeker/article/details/79427628...

2018-06-03 14:57:42 7266

转载 python导入自定义的包

This inspection detects names that should resolve but don’t. Due to dynamic dispatch and duck typing, this is possible in a limited but useful number of cases. Top-level and class-level items are supp...

2018-05-24 10:04:44 474

原创 numpy中takes函数

numpy.take(a, indices, axis=None, out=None, mode='raise'）take(indices[, axis, out, mode]) :提取指定索引位置的数据,并以一维数组或者矩阵返回(主要取决axis)>>> a = [4, 3, 5, 7, 6, 8]>>> indices = [0, 1, 4]...

2018-05-19 20:59:34 9710 1

转载交叉验证在sklearn中的实现

前面已经简单介绍了交叉验证，这次主要说明sklearn中关于CV的相关实现。先说一个sklearn中的很好用的功能：对一个数据集进行随机划分，分别作为训练集和测试集。使用的是cross_validation.train_test_split函数，使用示例如下：1 实现CV最简单的方法是cross_validation.cross_val_score函数，该函数接受某个estimator，数据集...

2018-05-17 21:31:18 878

原创选择包含某字符的列 pandas

选择包含“承德”的列数据#-*-coding:utf-8-*-import pandas as pdfrom pandas import DataFrame#读取数据file = pd.read_excel('test.xlsx',encoding='utf-8')df = pd.DataFrame(file)for index,row in df.iterrows(): ...

2018-05-15 16:56:09 9660 1

原创二维数组查找

题目描述在一个二维数组中，每一行都按照从左到右递增的顺序排序，每一列都按照从上到下递增的顺序排序。请完成一个函数，输入这样的一个二维数组和一个整数，判断数组中是否含有该整数。分析数组的形状，查找才能够左下角（或者右上角开始）如果arr[i][j] >target，i–;如果arr[i][j]public class Solution { public boolea...

2018-05-11 09:23:28 139

原创 pandas读取xls文件，添加列名

pandas读取文件，添加列名的方法df = pd.read_csv("file.csv",names=['id','score']) 注意names应该是[]，而不是{}，问题在于{}会随机选取，而[]则有顺序。读取xls文件data_xls = pd.read_excel(path,names=['user_id','Content','Score'])df = p...

2018-05-04 14:23:45 18073 1

转载 Python Pandas找到缺失值的位置

问题描述： python pandas判断缺失值一般采用 isnull()，然而生成的却是所有数据的true／false矩阵，对于庞大的数据dataframe，很难一眼看出来哪个数据缺失，一共有多少个缺失数据，缺失数据的位置。首先对于存在缺失值的数据，如下所示import pandas as pdimport numpy as npdf = pd.DataFrame(np.random.ra...

2018-05-04 14:12:15 2191

空空如也

空空如也