自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 收藏
  • 关注

原创 leetcode-dp

动态规划最长回文子序列516class Solution: def longestPalindromeSubseq(self, s: str) -> int: n = len(s) dp = [[0] * n for _ in range(n)] # 从后往前遍历,dp[i][j] 表示从i-j 的最长回文子序列长度。结果应该是dp[0][n-1] for i in range(n - 1, -1, -1):

2021-12-14 13:52:13 253

原创 排序算法(python 版本)

冒泡排序文章目录冒泡排序插入排序选择排序快排归并堆排序def bubble_sort(nums): # 两两对比,一直往前遍历。如果前一个数大,就交换顺序(每次把最大的数字放在最后) # 大的数字沉到低 n = len(nums) for i in range(n): for j in range(1, n - i): if nums[j - 1] > nums[j]: nums[j - 1],

2021-12-06 16:37:20 175

转载 sql语句学习

1、Distinct选取所有的值的时候不会出现重复的数据Select distinct user_name,user_age from user2、查询user_age不等于12的数据Select * from user where user_age <> 123、And和or在where子语句中把两个或多个条件结合起来。如果需要两个条件都成立就是用and如果只需要其中一个...

2018-09-25 14:34:40 230

转载 hive和

Hive和HbaseHive和Hbase是两种基于Hadoop的不同技术–Hive是一种类SQL的引擎,并且运行MapReduce任务,Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库。当然,这两种工具是可以同时使用的。就像用Google来搜索,用FaceBook进行社交一样,Hive可以用来进行统计查询,HBase可以用来进行实时查询,数据也可以从Hive写到Hba...

2018-09-25 10:37:04 206

转载 近期总结(9月)

LRU原理

2018-09-23 21:39:05 193

转载 hadoop学习

文章目录实现机制实现机制####### hdfs ###########hadoop fs -put 文件名 路径url # 传文件hadoop fs -get 文件名 路径url # 下载文件###### mapreduce #########hadoop -jar 名字.jar pi 5 5 # 参数(5个map。5个reduce)# 可以指定输入...

2018-09-23 15:28:07 359

原创 hadoop第一天 基本概念、伪分布式集群安装

解决的问题:海量数据存储(HDFS)海量数据分析(MapReduce)资源调度(YARN)google的是(GFS、MapReduce、BigTable)

2018-09-22 19:30:53 164

转载 智力题(更新中)

一根不均匀的绳子,全部烧完需要1个小时,问怎样烧能计时1个小时15分钟一根绳子从两头烧,烧完就是半个小时。一根要一头烧,一根从两头烧,两头烧完的时候(30分),将剩下的一根另一端点着,烧尽就是45分钟。再从两头点燃第三根,烧尽就是1时15分。...

2018-09-21 21:59:57 291

转载 keras实现attention(还不太懂)

from keras import backend as Kfrom keras.engine.topology import Layerfrom keras import initializers, regularizers, constraintsclass Attention_layer(Layer): """ Attention operation, wit...

2018-09-21 20:28:03 10177 1

转载 RNN、LSTM基础

RNNDNN的无法对时间序列上的变化进行建模,所以出现了RNN,神经元的输出可以在下一个时间戳直接作用到自身。但是RNN出现梯度消失,长短时记忆单元LSTM,通过门的开关实现时间上记忆功能,并防止梯度消失。RNN既然能继承历史信息,是不是也能吸收点未来的信息呢?双向RNN、双向LSTM,同时利用历史和未来的信息。LSTMGRUGRU对LSTM做了两个大改动1.将输入门、遗忘门、输...

2018-09-21 11:23:20 411

转载 双向 LSTM

原文链接  https://blog.csdn.net/jojozhangju/article/details/51982254 本文结构:为什么用双向 LSTM 什么是双向 LSTM 例子为什么用双向 LSTM?单向的 RNN,是根据前面的信息推出后面的,但有时候只看前面的词是不够的, 例如,我今天不舒服,我打算__一天。只根据‘不舒服‘,可能推出我打算‘去医院‘...

2018-09-21 11:11:18 3295

转载 HMM算法

前向算法

2018-09-03 10:53:42 531

转载 EM算法

这个讲的很清楚

2018-09-03 10:51:57 169

转载 lgb学习

lgb

2018-07-23 19:54:28 862

转载 xgboost参数

# learning_rate# n_estimators# min_child_weight# gamma # scale_pos_weight 样本不平衡时用# subsample初始学习率,base_model个数 max_depth和min_weight gamma值 subsample和colsample_bytree 正则化参数调优 降低学习率,训练更多的树...

2018-07-20 15:40:55 269

转载 RF参数

class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf...

2018-07-17 19:12:59 2206

转载 sklearn.svm包中的SVC(kernel=”linear“)和LinearSVC的区别

链接1、LinearSVC使用的是平方hinge loss,SVC使用的是绝对值hinge loss (我们知道,绝对值hinge loss是非凸的,因而你不能用GD去优化,而平方hinge loss可以) 2、LinearSVC使用的是One-vs-All(也成One-vs-Rest)的优化方法,而SVC使用的是One-vs-One (其实我也不明白,如果有人明白恳请指教。。。) 3...

2018-07-08 18:01:05 4609 1

原创 文本匹配学习,更新中

#import numpy as np,pandas as pddf_val = pd.read_csv('validation_data_cx.csv',encoding = 'utf-8')df_val.head(3)df_val.to_csv('validataon_data_cx.csv',encoding = 'utf-8')def mergedata(df): ...

2018-06-26 12:50:50 306

转载 keras里面如何计算f1-score

### 以下链接里面的codeimport numpy as npfrom keras.callbacks import Callbackfrom sklearn.metrics import confusion_matrix, f1_score, precision_score, recall_scoreclass Metrics(Callback):def on_train_begi...

2018-06-15 19:08:50 9718

原创 python数据分析常用方法-1[更新中]

了解数据读取数据保存数据数据的各种信息数据处理DataFrame拆分DataFrame 分组DataFrame随机选取数据创建空的DataFrame文本相关了解数据读取数据 说明:数据按照tab的方式分隔df = pd.read_csv('../input/data_train.csv',sep = '\t',encoding='GB...

2018-06-13 21:37:37 286

转载 python读取csv数据(添加列名,指定分隔方式)

添加列名:pd.read_csv(file, header=None, names = ['a','b','c'] )names为指定的名字数据tab分隔的时候去读方式sep指定df = pd.read_csv('../input/data_train.csv',sep = '\t',encoding='GBK')...

2018-06-13 18:21:17 36017

转载 FTRL学习

总结学习资源:基于FTRL的在线CTR预测算法在线学习算法FTRL详解

2018-06-12 15:40:12 182

原创 lgb参数

参数: params = {'learning_rate': 0.2, # default=0.1, type=double, alias=shrinkage_rate 'application': 'binary', # default=regression,任务类型 'num_leaves': 31, #...

2018-06-12 15:36:08 23115 3

转载 FM和FFM学习

FM后半部分公式化简,时间复杂度从O(kn2)降到O(kn)O(kn2)降到O(kn)O(kn^2)降到O(kn)∑i=1n−1∑j=i+1n(VTiVj)xixj∑i=1n−1∑j=i+1n(ViTVj)xixj\begin{aligned}\sum_{i=1}^{n-1}\sum_{j=i+1}^n(V_i^TV_j)x_ix_j \end{aligned} =12(∑i=1...

2018-06-12 14:49:59 204

原创 skleran库学习

LRPipeline数据划分lr.predict(x)和lr.predict_proba(x)决策树:随机森林GBMXGBoostSVM聚类LRsklearn学习-linear_model.LinearRegression方法: - score(X, y[,]sample_weight) 返回对于以X为samples,以y为target的预测...

2018-06-07 11:47:52 550 2

转载 keras文档学习

序列模型sequenceModel常用的model属性Model模型的方法回调函数Callbacks(实际上是一个类)Flatten层嵌入层 ==Embedding==循环层LSTM层参数文本预处理Tokenizer(分词器)类方法:属性:句子分割text_to_word_sequence函数式(Functional)模型序列模型...

2018-06-07 11:36:38 305

原创 python数据分析——pandas,numpy,matplot

pandaspandas.categoricalmap函数numpyargsort()numpy的ravel()meshgrid函数np.splitmatplotpandaspandas.categorical>>> pd.Categorical([1, 2, 3, 1, 2, 3])[1, 2, 3, 1, 2, 3]...

2018-06-07 11:06:18 997

原创 Seaborn画图库

画图Seaborn Seaborn 是由斯坦福大学提供的一个python库,比matplotlib简单。 1. 样式控制:axes_style()和set_style() 2. 用despine()进行边框控制:删除上方和右方坐标轴上不需要的边框,参数offect和trim 3. 通过 plotting_context() 和 set_context() 调整绘图元素链接:http...

2018-06-07 10:47:07 426

转载 特征选择(含代码)

当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除移除低方差法外,本文介绍的其他方法均从相关性考虑。根据特征选择的形式又可...

2018-06-07 10:18:37 6551 2

转载 @contextmanager方法——python

@contextmanager方法 :用来创建一个上下文管理器。 这种对象实现了enter() 和 exit() 方法。# 中规中矩的写法f = open("test.txt", "w")f.write("hello world!")f.close()# 采用with结构with open("test.txt", "w") as f: f.write("hello world.

2018-06-06 16:54:05 849

转载 python-遍历数据

dataframe按照行遍历import pandas as pddict=[[1,2,3,4,5,6],[2,3,4,5,6,7],[3,4,5,6,7,8],[4,5,6,7,8,9],[5,6,7,8,9,10]]data=pd.DataFrame(dict)print(data)for indexs in data.index: print(data.loc[inde...

2018-06-05 21:00:29 2381

原创 python读取Json文件保存为csv格式

两种方法load,读取的是整个文件,每个json之间用”,”分割开。此时文件开头”[” ,末尾加”]”loads,写在for循环里面一行一行的读取。每个json之间没有”,”的时候使用可以使用json在线解析,检验下文件是否合格 json在线解析 json在线解析2下面开始写代码读取import jsonimport pandas as pdloadsdf = ...

2018-06-03 15:12:46 7434 1

转载 DataFrame删除行、列

你在使用pandas处理DataFrame中是否遇到过如下这类问题?我们需要删除某一列所有元素中含有固定字符元素所在的行,比如下面的例子: 如果要删除的元素固定有更简单的方法,可参考另一篇博文:http://blog.csdn.net/htbeker/article/details/79427628...

2018-06-03 14:57:42 7237

转载 python导入自定义的包

This inspection detects names that should resolve but don’t. Due to dynamic dispatch and duck typing, this is possible in a limited but useful number of cases. Top-level and class-level items are supp...

2018-05-24 10:04:44 459

原创 numpy中takes函数

numpy.take(a, indices, axis=None, out=None, mode='raise')take(indices[, axis, out, mode]) :提取指定索引位置的数据,并以一维数组或者矩阵返回(主要取决axis)>>> a = [4, 3, 5, 7, 6, 8]>>> indices = [0, 1, 4]...

2018-05-19 20:59:34 9649 1

转载 交叉验证在sklearn中的实现

前面已经简单介绍了交叉验证,这次主要说明sklearn中关于CV的相关实现。​先说一个sklearn中的很好用的功能:对一个数据集进行随机划分,分别作为训练集和测试集。使用的是cross_validation.train_test_split函数,使用示例如下:​1 实现CV最简单的方法是cross_validation.cross_val_score函数,该函数接受某个estimator,数据集...

2018-05-17 21:31:18 861

原创 选择包含某字符的列 pandas

选择包含“承德”的列数据#-*-coding:utf-8-*-import pandas as pdfrom pandas import DataFrame#读取数据file = pd.read_excel('test.xlsx',encoding='utf-8')df = pd.DataFrame(file)for index,row in df.iterrows(): ...

2018-05-15 16:56:09 9634 1

原创 二维数组查找

题目描述 在一个二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。分析数组的形状,查找才能够左下角(或者右上角开始)如果arr[i][j] >target,i–;如果arr[i][j]public class Solution { public boolea...

2018-05-11 09:23:28 127

原创 pandas读取xls文件,添加列名

pandas读取文件,添加列名的方法df = pd.read_csv("file.csv",names=['id','score']) 注意names应该是[],而不是{},问题在于{}会随机选取,而[]则有顺序。读取xls文件data_xls = pd.read_excel(path,names=['user_id','Content','Score'])df = p...

2018-05-04 14:23:45 17963 1

转载 Python Pandas找到缺失值的位置

问题描述: python pandas判断缺失值一般采用 isnull(),然而生成的却是所有数据的true/false矩阵,对于庞大的数据dataframe,很难一眼看出来哪个数据缺失,一共有多少个缺失数据,缺失数据的位置。首先对于存在缺失值的数据,如下所示import pandas as pdimport numpy as npdf = pd.DataFrame(np.random.ra...

2018-05-04 14:12:15 2166

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除