Python小萝卜-CSDN博客

原创 python实现smote处理正负样本失衡问题

机器学习中难免遇到正负样本不平衡问题，处理办法通常有梁总，一：过采样，增加正样本数据；二：欠采样，减少负样本数据，缺点是会丢失一些重要信息。smote属于过采样。代码# from imblearn.over_sampling import BorderlineSMOTE# from imblearn.over_sampling import SMOTENC# from imblearn.over_sampling import SVMSMOTE# from imblearn.o...

2020-07-03 14:28:34 2792 2

原创 mysql多行合并一行，一行拆分多行

多行合并一行数据#建表语句DROP TABLE IF EXISTS `品牌`;CREATE TABLE `品牌` ( `id` int(0) NOT NULL, `品牌` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL) ENGINE = InnoDB CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dyna

2020-06-24 16:48:31 1013

原创 python pandas实现partition by组内排序功能

import pandas as pdimport numpy as npdic={'科目':['语文','语文','语文','语文','数学','数学','数学','数学','英语','英语','英语','英语'], '姓名':['赵大','钱二','孙三','李四','周五','郑六','王七','朱八','小红','小明','小李','小王'], '分数':[95,84,93,88,91,93,84,85,94,93,83,87]}data=pd.DataF.

2020-06-24 11:47:31 3459

原创训练集产生的onehot编码特征如何在测试集、预测集复现

数据处理中有时要用到onehot编码，如果使用pandas自带的get_dummies方法，训练集产生的onehot编码特征会跟测试集、预测集不一样，正确的方式是使用sklearn自带的OneHotEncoder。代码import pandas as pdfrom sklearn.preprocessing import OneHotEncoderohe = OneHotEncoder(handle_unknown='ignore')data_train=pd.DataFram...

2020-06-05 14:52:33 3246 2

原创 sen‘s斜率在matlab上的实现

原理 Sen’s斜率估计是Sen于1968提出并发展的一种非参数检验法，估计n个样本中N对数据的趋势斜率：案例对1960-2013年四季气温数据进行趋势检验，数据格式如下（部分数据）：时间春季夏季秋季冬季 1960 14.97 26.04 17.44 4.95 1961 15.37 ...

2020-05-02 12:47:09 9194 8

原创 mysql8.0装完启动不了服务解决办法

安装的过程中有一步提示说MySQL80服务启动不了，装完之后找到MySQL80服务，启动，报错，错误1053，这是因为网络服务权限不足导致，所以为了提高网络服务权限，需要将网络服务添加到管理员组，步骤如下：计算机(win10为此电脑)->管理->本地用户和组->双击组-> 双击Administrators->点击添加->输入NETW...

2020-04-21 15:11:21 3602 1

原创因子分析在python上的实现

因子分析（Factor Analysis）是指研究从变量群中提取共性因子的统计技术，这里的共性因子指的是不同变量之间内在的隐藏因子。例如，一个学生的数学、物理、化学成绩都很好，那么潜在的共性因子可能是智力水平高。因此，因子分析的过程其实是寻找共性因子和个性因子并得到最优解释的过程。因子分析有三个核心问题：一是检验是否适合因子分析，二是如何构造因子变量，三是如何对因子...

2020-03-24 14:19:09 5036 3

原创主成分分析在python上的实现

主成分分析（PCA）是一种基于变量协方差矩阵对数据进行压缩降维、去噪的有效方法，PCA的思想是将n维特征映射到k维上（k<n），这k维特征称为主成分，是旧特征的线性组合，这些线性组合最大化样本方差，尽量使新的k个特征互不相关。协方差是描述不同变量之间的相关关系，协方差>0时说明 X和 Y是正相关关系，协方差<0时 X和Y是负相关关系，协方差为0时 X和...

2020-03-24 10:48:52 4811 2

原创经验正交函数分析法（EOF）在matlab上的实现

原理与计算步骤数据准备数据集为福建省28个气象站1960-2013年的年际降水量数据，行为站点编号（数值格式），列为年份时间（数值格式）。部分数据如下：matlab代码需要代码(包括REOF)的请根据文章最后面的信息联系我。运行结果及分析空间分布特征分析前5个特征向量特征值的累积贡献率达到85.4%，但只有前两个特征根的误差范围不重叠通过...

2020-03-05 13:39:21 56107 68

原创熵值法在matlab上的实现

1.熵值法原理熵值法是一种客观赋权法,其根据各项指标观测值所提供的信息的大小来确定指标权重。设有m个待评方案，n项评价指标，形成原始指标数据矩阵X=(xij)m×n，对于某项指标xj，指标值xij的差距越大，则该指标在综合评价中所起的作用越大；如果某项指标的指标值全部相等，则该指标在综合评价中不起作用。在信息论中，熵是对不确定性的一种度量。信息量越大，不确定性就越小...

2020-03-05 13:38:39 41152 68

原创层次分析法在matlab上的实现

层次分析法（The analytic hierarchy process）简称AHP，在20世纪70年代中期由美国运筹学家托马斯.塞蒂（T.L.saaty）正式提出。它是一种定性和定量相结合的、系统化、层次化的分析方法。由于它在处理复杂的决策问题上的实用性和有效性，很快在世界范围得到重视。它的应用已遍及经济计划和管理、能源政策和分配、行为科学、军事指挥、运输、农业、教育、人才、医疗和...

2020-03-04 16:49:28 51167 21

原创模糊综合评价在matlab上的实现

原理模糊综合评价法是一种基于模糊数学的综合评价方法，应用模糊关系合成的原理，将一些边界不清，不易定量的因素定量化，进行综合评价。该综合评价法根据模糊数学的隶属度理论把定性评价转化为定量评价，即用模糊数学对受到多种因素制约的事物或对象做出一个总体的评价。它具有结果清晰，系统性强的特点，能较好地解决模糊的、难以量化的问题，适合各种非确定性问题的解决，其特点是评价结果不是绝对地肯定或否...

2020-03-04 16:31:08 51174 47

原创重标极差法（R/S）在matlab上的实现

基于重标极差(R/S)分析方法基础上的赫斯特指数(H)的研究是由英国水文专家H．E．Hurst(1900—1978)在研究尼罗河水库水流量和贮存能力的关系时，发现用有偏的随机游走(分形布朗运动)能够更好地描述水库的长期存贮能力，并在此基础上提出了用重标极差(R/S)分析方法来建立赫斯特指数(H)。作为判断时间序列数据遵从随机游走还是有偏的随机游走过程的指标。计算步骤案例...

2020-02-13 12:03:54 18324 56

原创 kettle连接mysql(5.X和8.X)

kettle需要通过驱动才能连接mysql，由于kettle默认使用的包名是org.gjt.mm.mysql.Driver，而mysql 8.0以上connector已经不再支持这个包名，所以，会出现明明已经将mysql-connector-java-8.0.xx.jar包拷贝到lib目录下，但还是报错说找不到驱动。mysql-connector-java-5.1.48.jar能兼...

2020-01-13 12:01:26 4672 9

原创 kettle在Windows环境搭建

Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。，Kettle 中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。 Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做...

2020-01-13 10:56:29 727

原创爬虫一：用正则表达式爬取图片

爬虫流程发起请求，通过使用HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，并等待服务器响应。获取响应内容如果服务器能正常响应，则会得到一个Response，Response的内容就是所要获取的页面内容，其中会包含：html，json，图片，视频等。解析内容得到的内容可能是html数据，可以使用正则表达式、第三方解析库如Beautifu...

2019-12-12 14:28:01 5298 1

原创爬虫三：用xpath爬取链家网二手房信息

爬虫流程发起请求，通过使用HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，并等待服务器响应。获取响应内容如果服务器能正常响应，则会得到一个Response，Response的内容就是所要获取的页面内容，其中会包含：html，json，图片，视频等。解析内容得到的内容可能是html数据，可以使用正则表达式、第三方解析库如Beautifu...

2019-12-12 11:09:32 2510 3

原创爬虫二：用BeautifulSoup爬取南方周末新闻

爬虫流程发起请求，通过使用HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，并等待服务器响应。获取响应内容如果服务器能正常响应，则会得到一个Response，Response的内容就是所要获取的页面内容，其中会包含：html，json，图片，视频等。解析内容得到的内容可能是html数据，可以使用正则表达式、第三方解析库如Beautifu...

2019-12-11 16:10:57 1006

原创曼－肯德尔(Mann-Kendall)趋势检验法在matlab上的实现

原理和计算步骤案例计算福建龙岩市的长汀、上杭、漳平、永定四个县市的1960-2013年的年际气温MK统计量。数据格式matlab代码评论想要代码。以下是mk z值计算原理。运行结果每个县市的UF、UB值以excel文件形式输出到matlab脚本所在路径，并且会生成图片。...

2019-10-29 20:47:57 49598 299

原创 python3自动发送邮件并添加附件

思路从数据库读取报表数据将报表数据以excel形式存到本地将本地报表文件以附件形式添加到邮件发送设置定时任务代码import pymysqlimport pandas as pdimport smtplibfrom email.header import Headerfrom email.mime.text import MIMETextfrom email.m...

2019-09-25 00:52:11 10249 15

原创 python:性能检测模块 line_profiler

line_profiler不仅能测试整个函数的运行时间，还能测试函数里每行代码的调用次数、耗时、以及耗时百分比。anaconda没自带line_profiler，需要安装。安装pip install line_profiler测试代码from line_profiler import LineProfilerdef jc(n): '阶乘' s=1 ...

2019-08-26 10:42:33 1067

原创 Navicat premium创建报表并自动（定时）发送邮件

1新建报表选中相应的数据库，选中报表，新建报表。2 编写sql在新建的报表中依次选择：数据--文件--新建--查询设计器--SQL，右击红框区域会跳出“编辑SQL”，点击“编辑SQL”把查询语句粘贴到该sql里。3 设计报表点击设计，把数据查询出来的列拉倒最上边4 插入图点击数据库图表组件，在详细信息下方插入数据库图表组件。5 编辑图双...

2019-08-06 11:48:05 9163 1

原创 pyspark：k均值

from pyspark import SparkConffrom pyspark.sql import SparkSessionfrom pyspark.ml.linalg import Vectorsfrom pyspark.ml.clustering import KMeansimport pandas as pdif __name__ == "__main__": a...

2019-06-04 14:48:24 858

原创 python通过flask框架接收网页请求并返回结果

python端from flask import Flask,request,jsonifyapp = Flask(__name__)#创建一个服务，赋值给APP@app.route('/get_sum',methods=['post'])#指定接口访问的路径，支持什么请求方式get，postdef get_sum(): a= request.form.get('a') ...

2019-06-04 14:42:32 9029

原创 pyspark：GBDT

from pyspark import SparkConffrom pyspark.sql import SparkSessionfrom pyspark.ml.linalg import Vectorsfrom pyspark.ml.feature import StringIndexerfrom pyspark.ml.classification import GBTClassifi...

2019-06-04 13:46:48 3058

原创 pyspark：随机森林

废话不多说，直接上代码：from pyspark import SparkConffrom pyspark.sql import SparkSessionfrom pyspark.ml.linalg import Vectorsfrom pyspark.ml.feature import StringIndexerfrom pyspark.ml.classification impo...

2019-06-04 11:47:08 4381 1

原创 pyspark:FPgrowth

原理https://blog.csdn.net/sunbow0/article/details/45602415https://www.cnblogs.com/haozhengfei/p/c9f211ee76528cffc4b6d741a55ac243.html代码from pyspark import SparkConffrom pyspark.sql import Spar...

2019-06-03 11:02:08 4198 12

原创 pyspark：ML和MLlib

Spark有两个用于机器学习的库，分别是ML和MLlib，可以把实际的机器学习以简单、可伸缩并且无缝的方式与Spark整合起来。Spark中ML和MLlib的主要区别和联系如下：（1）目前常用的机器学习功能2个库都能满足需求；（2）spark官方推荐使用ML, 因为在spark3.0之后，将会废弃MLlib，全面的基于ML。因为ml操作的对象是DataFrame，操作起来会比...

2019-05-31 19:04:15 3911

原创 pyspark：RDD和DataFrame

作为数据挖掘工程师，以后必不可免要用到并行计算，pyspark是python操作spark的API，本人因此入了坑。1 pyspark的安装见我另一篇博客：https://blog.csdn.net/qq_23860475/article/details/904761972 spark概述 Spark 允许用户读取、转换和聚合数据，可以轻松...

2019-05-31 16:34:43 7436

原创 pyspark：导入第三方包

集群上的python环境通常没有任务计算所需要的包，pyspark中的SparkContext提供pyFiles参数供我们导入第三包，这里的包可以是我们自己写的py文件，也可以是.whl文件，比如测试中的并行计算需要用到以下三个包：将三个包直接打包压缩成package.zip，记住一定要是zip格式测试代码from pyspark import...

2019-05-23 14:43:47 10473

原创 pyspark：连接spark集群Windows环境搭建

软件1、anaconda（python3.6）2、spark-2.4.3-bin-hadoop2.7（spark版本要和集群上的一样）3、JDK1.8python环境配置pip install pyspark这里如果遇到安装超时的情况采用以下命令pip --default-timeout=100 installpyspark或pip --default-ti...

2019-05-23 13:52:38 8381 4

原创 python特征选择

回归问题特征选择波士顿房价数据from sklearn.datasets import load_boston from sklearn.ensemble import RandomForestRegressor #Load boston housing dataset as an example boston = load_boston() X = boston["d...

2019-04-26 15:52:40 1875

原创 python缺失值填充

1. 用固定值填充对于特征值缺失的一种常见的方法就是可以用固定值来填充。data['分数'] = data['分数'].fillna('-1')2. 用均值填充对于数值型的特征，其缺失值也可以用未缺失数据的均值填充。data['分数'] = data['分数'].fillna(data['分数'].mean()))3. 用众数填充与均值类似，可以用未缺失数据的众数来...

2019-04-26 15:50:12 17155 1

原创 flume1.9在windows7上的配置与实例运行

配置环境1、win7；2、jdk8；3、flume1.9；注：最新版flume1.9需要jdk1.8支持。安装jdk的安装不多赘述，flume1.9的安装如下：1、进入官网下载页面：http://flume.apache.org/download.html2、然后找到1.9版本下载解压到指定路径（安装路径名称不能有空格）即可。3、编辑 apache-flu...

2019-04-22 15:06:35 1083

原创 maven在eclipse上的环境搭建

maven不像其他程序一样需要安装什么的，只需要简单的下载解压然后配置好相关环境变量即可。1、在百度上输入apache maven，找到下图红框页面点进去。2、进入页面大概是下图这样子，如果系统是Linux系统就下载Binary tar.gz archive对应的apache-maven-3.6.1-bin.tar.gz下的文件；如果系统是Windows的就下载Binary zip a...

2019-04-19 13:42:28 155

原创协同过滤推荐算法在python上的实现

1.引言信息大爆炸时代来临，用户在面对大量的信息时无法从中迅速获得对自己真正有用的信息。传统的搜索系统需要用户提供明确需求，从用户提供的需求信息出发，继而给用户展现信息，无法针对不同用户的兴趣爱好提供相应的信息反馈服务。推荐系统相比于搜索系统，不需要提供明确需求，便可以为每个用户实现个性化推荐结果，让每个用户更便捷地获取信息。它是根据用户的兴趣特点和购买行为，向用户推荐用户感兴趣...

2019-03-09 15:24:06 16525 36

原创 python sorted对列表和字典排序

sorted函数参数：sorted(data, key=None, reverse=False) 其中，data是待排序数据，可以是List或者iterator, cmp和key都是函数，这两个函数作用于data的元素上产生一个结果，sorted方法根据这个结果来排序。 key 是带一个参数的函数, 用来为每个元素提取比较值. 默认为 None, 即直接比...

2019-02-15 16:04:58 1269

原创 robotframework环境搭建

一、软件准备 1.python-2.7.15.amd64.msi 2.wxPython2.8-win64-unicode-2.8.12.1-py27.exe 3.robotframework-3.0.tar.gz 4.robotframework-ride-1.5.2.1.tar.gz 百度云盘下载（全部）：链接：https://pan.baidu...

2019-01-21 12:00:49 296

原创滑动t检验在matlab上的实现

原理与计算公式这一方法的缺点是子序列长度的选择带有人为性。为避免任意选择子序列长度造成的突变点的漂移，具体使用这一方法时可以反复变动子序列长度进行试验比较，提高计算结果的可靠性。matlab代码需要滑动t检验的matlab代码请根据文章最后面的信息联系我。案例以某地区1950-2018年均径流量为例进行突变检测，运行代码结果如下：...

2019-01-11 14:56:08 13110 34

原创时间信息熵和时间序列信息熵在matlab上的实现（基于遥感数据/tif格式）

原理与计算公式信息熵可以反映出研究对象的不确定性，而这种不确定性与研究对象的变化特征是直接相关的。同时，长时间序列的遥感影像由于完整地记录了与区域生态环境状况密切相关的环境要素的变化过程，能够更好地反映其时空变化规律。生态环境要素的时空变化特征包含变化强度和变化趋势两方面，分别来反映一段时间范围内环境要素变化的波动程度和变化的方向。综合以上分析，在借鉴信息熵概念的基础上，并结合...

2019-01-11 14:35:30 8064 5

空空如也

空空如也