春风吹23-CSDN博客

原创数据库建立索引的优缺点及适合建立索引的字段

建立索引的优缺点:为什么要创建索引呢？这是因为，创建索引可以大大提高系统的性能。第一、通过创建唯一性索引，可以保证数据库表中每一行数据的唯一性。第二、可以大大加快数据的检索速度，这也是创建索引的最主要的原因。第三、可以加速表和表之间的连接，特别是在实现数据的参考完整性方面特别有意义。第四、在使用分组和排序子句进行数据检索时，同样可以显著减少查询中分组和排序的时间。第五、通过使用索引，可以在查询的过程中，使...

2020-10-31 11:39:04 3529

原创 Spark学习——使用Spark做CTR预估

赛题信息背景任务描述：基于用户对广告任务的历史行为和广告任务属性，选择合适的算法预测用户在特定上下文下对某个广告任务的点击概率。尝试解决的问题：提高广告点击转化率预估的准确性难点：广告任务相对可推用户数量非常少；有行为的广告任务较少，数据非常稀疏；广告任务在投放周期的不同阶段转化率差异较大；存在误点击噪音数据；有效特征识别困难数据集 - 训练集很大，采用分割方式进行数据集查看训练集 [‘label’, ‘uId’, ‘adId’, ‘operTime’, ‘siteId’, ‘slotId’,

2020-10-19 21:22:16 725 1

原创机器学习基础知识点

机器学习150道1详细说说SVM支持向量机，因其英文名为support vector machine，故一般简称SVM，通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。2哪些机器学习算法不需要做归一化？在实际应用中，需要归一化的模型：1.基于距离计算的模型：KNN SVM。2.通过梯度下降法求解的模型：线性回归、逻辑回归、支持向量机、神经网络。但树形模型不需要归一化，因为它们不关心变量的值，而是关

2020-10-04 14:55:10 6127

原创百面机器学习基础部分整理+LeetCode必刷

这里写目录标题Week1特征工程归一化的方法有哪些？为啥要对数值特征做归一化？类别型变量编码方式？什么是组合特征，如何处理高维组合特征？如何有效找组合特征？文本特征？Word2Vec如何工作与LDA有什么区别联系？Week1特征工程归一化的方法有哪些？为啥要对数值特征做归一化？归一化的方法主要有（1）Min-Max归一化将结果映射到[0,1],进行等比缩放（2）零均值归一化将数据映射到均值为0标准差为1的分布上通过归一化，梯度下降能够更快的找到最优解。常见的需要归一化的模型有（线性回归、逻辑回归

2020-08-18 16:14:56 2764

原创局域网Linux服务器联网的方法

有三台只能上内网的服务器,想在上面搭建一个Spark Hadoop集群,通过访问可以访问外网的本机,使服务器链接外网.之前也没搞过这一类东西,然而欠下的帐总要补回来,集群什么的自己动手搭一下,也是对Linux的一种掌握和练习吧.分为三步首先使用CCproxy搭建本地代理,代理配置使用.↓1.全局代理设置#打开profile文件vim /etc/profile#添加Pro...

2020-08-13 12:04:04 2062

原创 Linux神器-Screen的简单使用

一背景系统管理员经常需要SSH 或者telent 远程登录到Linux 服务器，经常运行一些需要很长时间才能完成的任务，比如用Xshell登录服务器开启Jupyter NoteBook服务供我们远程写代码,常情况下我们都是为每一个这样的任务开一个远程终端窗口，因为它们执行的时间太长了。必须等待它们执行完毕，在此期间不能关掉窗口或者断开连接，否则这个任务就会被杀掉，一切半途而废了.这个时候Screen就登场了,有了Screen即使关了Xshell,我们的NoteBook服务一样不会中断.同时,Scree

2020-08-13 11:52:51 537

原创 Spark学习笔记

Spark基础知识RDD 与 SparkSQL什么是RDD 与 SparkSQLDataFrame 与 RDD 的区别？DataSet三者相同点：RDD的转换、action以及惰性机制、持久化RDD 与 SparkSQL什么是RDD 与 SparkSQLRDD（弹性分布式数据集）(Resilient Distributed DataSet）是一组不可变的JVM对象的分布集，该数据是分布式的基于某种关键字，该数据集被划分成块。同时分发到执行器节点执行（RDD（Resilient Distributed

2020-07-30 15:03:57 729

原创 Pandas-分组函数groupby中（apply,agg,transform）方法的比较

pandas模块给数据处理的能力给予了很大的助力，但是初学者刚开始可能会被其中分组聚合的三个方法（apply,agg和transform），弄的头晕眼花，至少我自己学习的过程中是这样的，看了网上的很多解释，觉得对于初学者理解起来还是蛮困难的，翻阅了好几本python数据分析的书籍，自己总算理解了个大概，在这里给大家讲一下这三个方法。具体请看《Python数据科学手册》（Jake Vanderplas著）的146页哈，另外这本书强烈推荐，看过Wes McKinney著的《利用Python进行数据分析》，再看

2020-07-27 11:00:45 2295 1

原创 python版冒泡、选择、插入、希尔、归并、快速排序总结

python版冒泡、选择、插入、希尔、归并、快速排序总结冒泡排序介绍实现算法分析选择排序介绍实现算法分析插入排序介绍实现算法分析快排实现部分内容转自https://www.cnblogs.com/pungchur/p/12080326.html，总结的非常好。会加入希尔、归并、和快排。冒泡排序介绍依次比较相邻两元素，若前一元素大于后一元素则交换之，直至最后一个元素即为最大；然后重新从首元素开始重复同样的操作，直至倒数第二个元素即为次大元素；依次类推。如同水中的气泡，依次将最大或最小元素气泡浮出水

2020-07-23 14:20:02 503

原创 SQL系列——LeetCode20道题解

175. 组合两个表176. 第二高的薪水# Write your MySQL query statement belowSELECT max(Salary) as SecondHighestSalaryFROM EmployeeWHERE Salary <(SELECT max(Salary) FROM Employee);where max（salary），where条件中不能包含聚组函数总结rank、dense_rank、row_number1.ROW_N..

2020-07-23 14:19:22 332

转载中文文本关键词抽取的三种方法-python

利用Python实现中文文本关键词抽取的三种方法文本关键词抽取，是对文本信息进行高度凝练的一种有效手段，通过3-5个词语准确概括文本的主题，帮助读者快速理解文本信息。目前，用于文本关键词提取的主要方法有四种：基于TF-IDF的关键词抽取、基于TextRank的关键词抽取、基于Word2Vec词聚类的关键词抽取，以及多种算法相融合的关键词抽取。笔者在使用前三种算法进行关键词抽取的学习过程中，发现采用TF-IDF和TextRank方法进行关键词抽取在网上有很多的例子，代码和步骤也比较简单，但是采用Word2

2020-07-22 22:52:23 23402 5

原创 SQL系列-45道经典题-已完结

1、查询01课程比02课程成绩高的学生信息及课程分数；SELECT *FROM student AS a INNER JOIN sc AS bON a.Sid = b.Sid INNER JOIN sc AS cON a.sid = c.sid AND b.cid = 01 AND c.cid =02WHERE b.score >c.score;2、查询同时存在01课程和02课程的情况提示：左边是01课程的记录右边是02课程的记录...

2020-06-23 23:21:35 2133 3

原创 pandas相关系数-DataFrame.corr()参数详解-针对数值特征和类别特征

DataFrame.corr(method='pearson',min_periods=1)参数说明：method：可选值为{‘pearson’, ‘kendall’, ‘spearman’}pearson：Pearson相关系数来衡量两个数据集合是否在一条线上面，即针对线性数据的相关系数计算，针对非线性数据便会有误差。kendall：用于反映...

2020-05-12 11:01:11 5891 4

原创什么是ROC和AUC？一文给你讲明白

原文链接：https://www.cnblogs.com/gatherstars/p/6084696.htmlROC曲线与AUC值本文根据以下文章整理而成，链接：（1）http://blog.csdn.net/ice110956/article/details/20288239（2）http://blog.csdn.net/chjjunking/article/details/59331051.概述　　AUC（Area Under roc Curve）是一种用来度量分类模型好坏.

2020-05-10 18:16:08 21515 1

转载最通俗易懂的p value讲解

什么是p value？这个问题，曾一度让我怀疑我根本都没有学懂知识，只是像规则一样记住然后胡乱使用而已。此番记录就当再次考验我是否真正理解到p value的含义。p value，代表在原假设条件下，实验事件可能发生的概率。举例说明：抛一枚硬币，正面朝上和反面朝上的概率是一样的，各50%，但这是有前提条件的，即硬币是均匀的（原假设），才能保证正反面出现的概率相同。现在将该硬币抛掷5次，那么在...

2020-04-22 00:26:35 7564

转载特征工程-数值特征-多项式特征PolynomialFeatures(将数据变化为多项式特征)

函数说明：PolynomialFeatures(degree=2, interaction_only=False, include_bias=False)参数说明:degree=2,表示多项式的变化维度为2，即^2, interaction_only表示是否只使用a*b, include_bias是否添加一列全部等于1的偏置项对数据进行多项式变化，将两个特征a, b如果是进行2多项式变化...

2020-04-07 22:03:34 3070

原创数据挖掘模型融合—Stacking

上半部分是用一个基础模型进行5折交叉验证，如：用XGBoost作为基础模型Model1，5折交叉验证就是先拿出四折作为training data，另外一折作为testing data。注意：在stacking中此部分数据会用到整个traing set。如：假设我们整个training set包含10000行数据，testing set包含2500行数据，那么每一次交叉验证其实就是对trainin...

2020-04-04 13:09:54 453

转载 Quantile Quantile Plot----QQ图

QQ图是统计学一种常用的图，但是今天上网查了一下竟然一下子没找到讲解的非常好的资料，一番搜索后发现了下面这篇文章，直观易懂，点赞点赞，特此转载。原文地址添加链接描述...

2020-04-03 13:03:35 6196 1

原创贝叶斯调参原理总结

调参3大方法超参数优化基本分为三类：网格搜索，随机搜索和贝叶斯调参其中网格搜索是最常用的调参方法,网格搜索使用穷举法,穷举参数组合然后进行建模找到最佳参数,然而此方法有一个缺点----十分耗时.贝叶斯调参,在kaggle和天池的比赛中看到使用这种方法.据说贝叶斯调参耗时少,而且结果也不错,在kaggle等比赛中,越来越多的选手开始使用. 但是该方法也有一定的缺点,接下来对贝叶斯调参的优缺点...

2020-04-01 17:07:24 6152

转载 L1正则和L2正则

L1正则与L2正则的比较与分析L1正则与L2正则的解释正则化L1与L2的区别L1\L2为什么容易得到稀疏解这篇文章太棒了！解释的很清楚，而且关联了贝叶斯分类器，醍醐灌顶！！！...

2020-04-01 13:00:26 552

转载数据分箱的常用方法

假设要将某个自变量的观测值分为k个分箱，一些常用的分箱方法有：1.无监督分箱（1）等宽分箱：将变量的取值范围分为k个等宽的区间，每个区间当作一个分箱。（2）等频分箱：把观测值按照从小到大的顺序排列，根据观测的个数等分为k部分，每部分当作一个分箱，例如，数值最小的1/k比例的观测形成第一个分箱，等等。（3）基于k均值聚类的分箱：使用第五章将介绍的k均值聚类法将观测值聚为k类，但在聚类过程中需要保...

2020-03-29 21:28:13 7390

原创几种特征工程方法

原始特征基础上进行特征工程https://blog.csdn.net/weixin_42211626/article/details/103989659 特征组合交叉方法论2.1时间特征时间差将regDate-creatDate 做差年份可以目标编码将时间映射成年月日 dayofweek构造了 regDate creatDate的特征映射年份可以目标编码2....

2020-03-29 13:00:48 905

原创 EDA-数据探索性分析的目标

EDA-数据探索性分析EDA-数据探索性分析的目标EDA-探索步骤整体总览判断数据缺失和异常缺失值判断数据异常判断(非传统的异常值)异常值判断通常使用箱型图或者直方图判断数据的缺失和异常功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释...

2020-03-23 21:34:18 1252 1

原创 Pandas—append的使用技巧与注意事项

在处理缺失数据,对原始数据进行填充的时候,发现如果对于原始数据选循环再更改,改动失败,于是想到新建一个dataframe,在dataframe的基础上对循环里的dataframe进行append操作,然而使用append的时候有个坑,不然append后新的dataframe也是空的.需要对dataframe给出一个名字,d = df.append(df2)贴上代码# -*- cod...

2020-03-23 14:08:53 1983

原创设置jupyter中DataFrame的显示限制

在我们使用jupyter的时候,往往会因为dataframe显示限制,导致我们看不到想要的列或者行,可以通过设置显示行数列数import pandas as pd pd.set_option('display.width', 500) #设置整体宽度pd.set_option('display.height', 500) #设置整体高度 pd.set_op...

2020-03-21 16:21:41 1589

原创对array进行值统计

使用pd.value_countspred_churn = array([0.2, 0.1, 0.1, ..., 0. , 0.2, 0.3])使用pandas.value_counts即可进行值统计，返回的形式是一个seriescounts = pd.value_counts(pred_churn)0.0 17460.1 7320.2 ...

2020-02-22 17:43:42 2212

原创 numpy.array使用技巧——数据过滤

numpy.array使用布尔值进行数值过滤>>> x = np.arange(5,0,-1)>>> xarray([5, 4, 3, 2, 1])>>> x[np.array([True, False, True, False, False])]>>> # 下标为True的取出来，布尔数组中下标为0，2的元素为T...

2020-02-22 17:23:54 1554

原创数据清洗——Pandas统计缺失值数量、查看数据信息、数据总体概述

进行数据挖掘的时候，在读取数据后，通常要对所分析建模的数据有一个总体了解。因此需要对数据进行缺失值统计、查看数据分布、查看数据表中每一列的信息等等。这些在pandas中都有现成的工具，直接调用函数，即可对我们的数据进行一个大致的了解。这里我们使用titanic生存者数据，进行演示，数据如下：查看数据信息——titanic.info()titanic.info()...

2020-02-15 19:45:40 18017

原创混淆矩阵的最简单的可视化方法

对于混淆矩阵的可视化，网上大部分都是用matplot进行绘制的，效果如下然而针对这种使用matplot代码的方法，网上找了好几个，都没有绘制成功，而且代码也有点杂。可以使用seaborn进行绘制，简单方便。直接上效果图贴出代码：import seaborn as sn#得到混淆矩阵cm = confusion_matrix(y_test_undersample,y_pred_un...

2020-02-12 21:39:36 10793 2

原创 Jupyter notebook如何打印多个结果

输入以下代码，并在jupyter窗口内运行from IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity='all'

2020-02-12 21:15:39 2460 1

转载 Linux特殊文件权限(chmod) chmod2777

一般来说，使用过Linux的同学都知道，Linux文件的权限有rwx，所有者、所有组、其它用户的rwx权限是彼此独立的。为此，经常会听到如果某个web文件需要被修改的话，需要加上777的权限，这就是让所有用户可写。但仔细一想，这样的权限未免有些想得比较天真，没有考滤特殊情况。例如/tmp目录默认权限是777，而且有些文件也是允许所有用户访问修改的，那么是不是任何一个用户都可以将这些删除...

2019-09-24 09:48:43 4002 3

原创搭建Spark集群系列之2------搭建环境

1 配置集群我们还要将服务器防火墙关闭,在CentOS中6.5和7版本的命令行是不一样的,由于使用的是CentOS7.6,网上搜了一下命令先将防火墙关闭.CentOS 7.0默认使用的是firewall作为防火墙。firewall-cmd --state #查看默认防火墙状态（关闭后显示notrunning，开启后显示running）[root@localhost ~]#firew...

2019-08-27 16:28:14 192

原创 lgb模型和n折验证的使用

#lgb参数lgb_params = { "boosting_type": "gbdt", "objective": "binary", 'metric': {'binary_logloss', 'auc'}, #二进制对数损失 "learning_rate": 0.01, "max_depth": 7, "num_leaves": 105,...

2019-07-20 15:49:18 2281

原创 pycharm 选择django版本的虚拟环境配置

在linux虚拟机进行django的学习中,需要使用低版本django，然而 linux中有anaconda和linux自带的3.5 2.7版本的python在加上anaconda的3.7 一共有3个版本的python。这就导致在使用命令行python manage.py runserver的时候 python解释器找不到相应的包——之前python库安装的时候，太混乱了。anaconda...

2019-04-24 15:02:29 1560

原创 selenium 和 firefox 的代理配置(python)

import requestsPROXY_POOL_URL = 'http://localhost:5000/get'# 通过proxypool获取代理ipdef get_proxy(): try: response = requests.get(PROXY_POOL_URL) if response.status_code == 200: ...

2019-04-23 19:51:42 1948 1

转载 ProxyPool部署文档

linux 部署ProxyPool 安装Redis并开启 https://blog.csdn.net/ywb201314/article/details/83013092安装redis 和开启安装完redis后会使用默认配置，默认配置需要每次linux开机手动启动相关指令在链接里安装redis的时候没有找到相关的conf文件，使用默认的配置开启redishttp...

2019-04-22 20:17:45 739

转载如何理解Python中的if name == 'main'

转自yjk13703623757的博客https://blog.csdn.net/yjk13703623757/article/details/77918633/通俗的理解__name__ == '__main__'：假如你叫小明.py，在朋友眼中，你是小明(__name__ == '小明')；在你自己眼中，你是你自己(__name__ == '__main__')。if __na...

2019-04-14 19:20:57 153

原创正则表达式中的原生字符串r''

在正则表达式的使用过程中，有个小小的疑问r‘’ ,代表什么意思？其实在《python基础教程》中，作者已经进行了详细的说明。加入要匹配字符串‘python.org’，可以直接使用‘python.org’ 吗？当然是可以的，但是不要忘记 “.” 代表通配符，此时也与‘pythonaorg’匹配。怎么让'.'不代表统配符呢？只要加上‘\’即可，但是为了表示模块re要求的单个反斜杠，需要再字...

2019-03-23 20:20:42 4979

空空如也

scrapy爬虫出现 DEBUG: Crawled (404)