xiaoshu_yilian-CSDN博客

原创 python pandas入门学习笔记

将工作中常用到的pandas涉及到的数据查询、转换、统计等函数总结在这里。import pandas as pdimport numpy as npimport matplotlib.pyplot as plt#pandas里就两种数据格式，dataframe和series，dataframe的每行每列都是一个series对象#一、创建数据s = pd.Series([2,4,5,11,np.nan,8]) #创建一个带有缺失值的series对象sdf = pd.DataFrame(np.r

2020-05-14 15:51:57 446

原创 Linux上安装python指南

公司的linux服务器上只有自带的python2,折腾了一下安装python3,后来在网上搜发现装miniconda会更加方便。清华镜像下载：https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/参考链接：https://blog.csdn.net/YaoBrian/article/details/134713563。一般公司如果有自己的源，那就问问运维如何装吧。1、下载miniconda安装包。3、初始化miniconda。

2024-05-15 14:08:48 357 2

原创 Linux上安装mysql指南

我在装的时候，第5、6步报错了，先暂时跳过。最后一步server也报错了，由于server是本机搭建mysql数据库的，只是客户端可能也没必要装。mysql -h -u<用户名称> -p<用户密码> -P3306 --default-character-set=utf8。一开始，我自己下载了安装包，装了一个这个社区版的，rpm -qa | grep mysql。最后，看看我已经装好的包，只需要装mysql客户端这些就够了，不需要生产数据。查了资料，好像说要先把上面两个包先卸载，再重新装。

2024-04-17 13:47:37 433

原创 pom.xml文件中的标签认识

6、：用于管理项目所依赖的jar，也会固定带有版本信息，包括其 groupId、artifactId 和 version 等信息。其中的版本也可以调用上面所定义的版本。一般首次编译的时候，如果本地仓库没有依赖的jar包或者插件，会去远程仓库下载到本地仓库，第二次运行的时候就不需要重新下载了。4、：定义远程仓库的地址，本地仓库的地址一般是：~/.m2/repository,5、: 用于统一管理所依赖的jar包的版本，一般在中的版本中调用。2、:表示工程的唯一id。1、：表示项目组的id。

2024-04-07 16:18:34 320

原创 java环境配置与打包（收藏版）

1、先在file–>project structure 弹框后选中Atifacts—> + ---->jar---->from module with dependencies,跟上面一样，注册主类信息，并且指定 META-INF/MANIFEST.MF的路径为src下。做到了这步，后续才是需要去根据自己想要实现的内容去学习相关的语法，语言是学不完的，大概把这些基本的工具用上，才不会一上来看到陌生的语言或者语法就被劝退了。最近作为新手刚学习了java,虽然工作了几年，以前也写过java，但是几乎忘光了。

2024-02-20 14:13:15 1243

原创快速入门git（收藏篇）

此时，又在分支master上，提交新建的test3.txt，master含有文件test1.txt、test2.txt、test3.txt，而master1仍只含有test1.txt，master2含有test1.txt、test2.txt。–git add ：当工作区新增一个文件，并执行git add时，暂存区的目录树被更新，同时工作区修改（或新增）的文件内容被写入到对象库中的一个新的对象中，而该对象的ID被记录在暂存区的文件索引中。即 master 指向的目录树就是提交时暂存区的目录树。

2023-04-24 14:45:03 497

原创如何编写udf函数(收藏篇)

去Maven仓库(https://mvnrepository.com/)下载需要的jar包以及复制所需要的依赖信息。hive自带了一些函数，比如：max、min 等，但是自带的函数数量有限，所以hive提供给用户自定义函数的功能。由于我们udf函数需要打的是jar包，一路next保存之后，需要修改下pom.xml文件，后面才能打jar包。maven不需要安装，idea自带，我们只需要下载依赖（引入需要的jar包，配置文件加上依赖信息）我的电脑>属性>高级系统设置>环境变量>系统变量。

2023-04-13 16:28:45 2375

原创利用xgb模型生成特征(内含查看xgb模型代码)

xgb模型进行特征衍生

2022-09-02 15:13:42 832

转载利用python将用户地址转坐标(经纬度)

地址转坐标

2022-09-01 15:46:41 1438

原创如何在一张图中画不同模型的roc曲线（python）

python实现在一张图上画不同模型的roc曲线

2022-07-05 11:43:38 823 2

原创激活函数总结

关于激活函数的总结：一、sigmoid激活函数公式：1/(1+exp(-w1x1+w2x2+…))sigmoid函数是一条穿过(0,0.5)的s型曲线，上下限分别无限逼近1，0#sigmoid函数的缺点：1、倾向于梯度消失2、执行指数运算，计算速度较慢3、sigmoid函数输出不是以0为中心，而是以0.5为中心，会降低权重更新的速率二、Tanh/双曲正切激活函数公式：2/(1+exp(-2(w1x1+w2x2+…)))-1Tanh函数是一条穿过(0,0)的s型曲线，上下限分别无限逼近1，

2022-05-10 15:04:52 773

原创快速入门pyspark(总结)

import findsparkfindspark.init()import pysparkfrom pyspark.sql import SparkSessionspark=SparkSession.builder.appName(‘data_processing’).getOrCreate()df=spark.read.csv(‘dwd_jv_item_batch_verification_fbi_hf.csv’,inferSchema=True,header=True)print(df

2022-05-10 14:54:25 580

原创关于NN(神经网络)的学习笔记

一、关于使用梯度下降求解损失函数极小值的原理：简单来说首先我们的损失函数一定是基于参数单调递减的或者是可以收敛的。第一步，先初始化参数取值，第二步，把参数代入到损失函数，损失函数值没有小于给定的极小值，则迭代继续，否则该参数就是得到的最优解第三步，此时的参数值再减去损失函数对参数的偏导的数值(损失函数对参数求偏导，把此时的参数值代入公式)，就是迭代得到的参数值第四步，回到第二步继续迭代https://www.cnblogs.com/pinard/p/5970503.html二、关于深度神经网络

2022-05-09 09:12:58 284

原创 hive如何将列转成行

话不多说，直接上代码。select * from (select “20220415” as id ,“38292|38291” as proof_list) t1 lateral view explode(split(t1.proof_list, ‘\|’)) t2 as proof_id最后结果：

2022-04-15 15:22:47 1930

原创本地数据如何上传至hive表(收藏)

如题。我指的本地，是指数据存放在windows系统的磁盘里，那如何把数据进行上传到hive表呢？为了后续的数据分析。1、数据文件上传linux服务器先找到一台能登录hive、hdfs的服务器终端，登录上去，切换成hdfs用户： su - hdfs2、上传文件至hdfs ：rz 上传3、上传了之后查看下数据格式是否正确：我这里数据只有两个字段，以逗号为sep，以防索引保留下来，可以这样保留你的csv数据，data.to_csv(’./toufang20220414.csv’,index=None)

2022-04-15 14:56:31 3654

原创关于python调用路径的问题

好久没写文字了。把python调用包的路径问题做个总结写在这里，虽然很简单，但是还是做个记录。

2021-08-27 16:52:31 339

原创快速入门git（自学版）

Git分有工作区，暂存区(stagingarea)，存档区(repository)的概念，四个对象分别是：blob（一般是某个文件，当文件改变,执行git add后，会产生新的Blob对象）、tree（一般是某个目录）、commit（commit时会产生）、tag1、cd /tmpMkdir git-practiceCd git-practiceGit init #初始化这个目录

2021-05-19 11:20:46 251 1

原创快速入门linux（收藏版）

在写这篇文章之前，我想说说什么是linux,但是发现自己实际工作中使用了四五年的linux,也竟一句话说不出什么是linux。linux系统的核心是内核。内核通过硬盘上的存储空间来实现虚拟内存，内核不断的在虚拟内存和物理内存之间交换虚拟内存中的内容，使得系统以为自己拥有比物理内存更多的可用内存。那么，linux中使用的工具就是shell。在CLI（文本命令行界面）交互界面输入命令，然后在内核中运行程序。说成大白话就是：通过终端访问linux系统后，可以输入shell脚本实现程序在linux内核里运行。

2021-04-24 13:40:36 718

原创一文详解xgb参数（收藏版）

一般做机器学习的小伙伴，应该用xgb比较多点，因为它比较透明易懂，且在sklearn库里的xgb损失函数是泰勒二阶展开的，而GBDT的损失函数只是一阶，从精准性来说用xgb模型会更好，前提是你也是用python的。都说了解一个模型原理的时候，了解它的参数是必备的。下面我们来说说xgb都有哪些参数，以及这些参数的作用等等。一、通用版参数1、 booster [default= gbtree ]用于选择每次迭代的模型。一般，gbtree和dart是用于树模型的，而gblinear更适用于线性模型，gbt

2021-04-09 18:16:34 11532 2

原创 window下快速搭建jupyter

用过python建模的小伙伴应该都用过pycharm,pycharm比较适合用于工程代码的开发，但是在做一些探索性分析或者建模时，用jupyter是比较方便的。下面来说说window下如何搭建jupyter,以及怎么玩。默认本地已经装了python。1、装jupyter打开cmdpip install jupyter(注意：有些大厂的童鞋可能要调用公司统一的镜像源）pip install -i http://mirrors.cloud.tencent.com/pypi/simple ...

2021-04-08 11:03:20 460

原创关于两个模型的对比

大家都知道，对于相同的客群，相同的响应结果情况下，对比两个模型的优劣性，指标有许多。比如总体的准确性，比如AUC、ks、提升度等等。本文以提升度来讲讲，如何有效对比两个模型的优劣性。在实际使用中，我们为了证明模型是优于当下使用的策略的，比如使用资产等级来划分客群。将分数划分成跟策略一样的组数，（默认策略也是有优先级的，分数的等级对标策略的优先级），分析相同组数的...

2021-03-23 15:55:59 5151

原创如何在windows下搭建spark环境（收藏不迷路）

一、下载安装操作1、下载安装jdk8(jdk1.8版本):下载地址(需要oracle账号)https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html本地点击exe文件安装，安装目录为C:\java2、下载安装scala下载地址：https://www.scala-lang.org/download/2.11.12.html本地点击msi文件安装，安装目录为D:\scala3、下载安装hadoop下载

2021-03-02 17:26:17 804 1

原创 hive建表与mysql建表的区别

现在大数据时代我们一般企业里都会将数据存储在hadoop这样的分布式系统里，我们可以编写hive-sql对数据进行分析，但是一般的业务系统是基于mysql这样的关系型数据库来进行可视化的，所以将hive上的数据表调度到mysql容易踩坑的地方总结在这里，下面举个栗子来说明一下。一、hive建表程序：1、字符型跟mysql的字符型表示不一致,hive是string,mysql是varchar(n)2、浮点型字段跟mysql的浮点型表示不一致,hive是float,mysql是double3、mysql

2021-01-13 11:00:04 1545

原创 hive总结(收藏版)

最近在写hive踩了时间计算的坑，把时间相关计算汇总在此，做个工具笔。select datediff(from_unixtime(unix_timestamp('2020-10-01 00:00:00'),'YYYY-MM-dd'),concat(substr("20201031",1,4),'-',substr("20201031",5,2),'-',substr("20201031",7,2)))...

2020-11-17 16:23:33 6133

原创 python日期计算相关汇总

标题以前很少使用python的时间相关模块，最难跳槽了新的单位，会经常进行时间的计算，所以把python的日期、时间模块的相关运算汇总在此。import datetimeimport timet=datetime.datetime(2008, 2, 16,13,42,33) #python的日期类型为datetimet1=datetime.datetime(2008, 3, 1)print(type((t1-t))) #两个datetime相减，得到的是'datetime.timedelta'

2020-11-12 18:57:17 236

原创 python实现文本特征提取之tf-idf

话不多说，直接上个python实现文本特征提取的demo,关于里面调用方法比如CountVectorizer参数的解释可以直接看源码。有兴趣自己玩玩吧~from sklearn.feature_extraction.text import CountVectorizer,TfidfTransformerimport jiebadef text2Feature(texts): vectoizer=CountVectorizer() x=vectorizer.fit_transform(

2020-07-28 22:38:38 631

原创 python工程中os模块最常用方式

经常在搭建一个数据挖掘工程时，需要将代码分门别类规划好，相互调用的过程中涉及到引用别的模块，那么我们就需要对以下几行代码比较熟练。直接上代码！import osimport syslocal_path=os.path.realpath(file)project_path=os.path.dirname(os.path.dirname(local_path))sys.path.append(project_path)print(local_path) #D:\project\code\test.p

2020-07-27 15:34:26 104

原创 python 捕获异常并显示具体错误

我们在具体实施某个工程时，可能会遇到未知的错误需要兜底，需要捕获异常的同时显示具体错误，直接上代码。import loggingimport tracebackdef get_logger(file_path,logging_level): logger=logging.getLogger(__name__) logger.setLevel(level=logging.INFO) hander=logging.FileHandler(file_path) hander

2020-06-03 14:54:37 1426

原创 python ModuleNotFoundError: No module named test1

代码结构如下：–code----test.py–code1----test1.py在解释器中，对code1执行Make Direcdory as>>Sources root，在test.py里执行import test1是没问题的，若没有执行，则报错：ModuleNotFoundError: No module named ‘test1’。但是当我们的代码放到服务器上去执行时，在解释器执行的以上操作是无效的，需要将code1的路径加入到sys里：import sysimport

2020-06-03 14:09:04 1716

原创 sql中关联条件注意事项

最近在系统里查询企业供应商接口的时候，本着程序员的强迫症要先检查下代码的准确性，发现接口返回的某企业的供应商比我自己线下查询的供应商少了一个企业。才发现接口逻辑有误。老规矩，直接上代码比较下：#company表主要字段是company_id,company_name,存储各个企业id和名称;#company_relations表主要字段是company_id,relationship,rel_company_id,存储企业之间的关系下面是系统里原来的接口：select t1.company_id,t

2020-05-25 17:40:11 977

原创 python 连接postgresql TypeError:must be str,not int

本文主要介绍下python连接postgresql如何操作，以及往数据库表插数时，有些字段可能不是char或者text格式的而是int时，会报错TypeError:must be str,not int。要在python里抓成str才行。话不多说，直接看代码！#!/usr/bin/env python# -*- coding: utf-8 -*import psycopg2# 填写连接数据库的参数conn = psycopg2.connect(database="db", user="xiaosh

2020-05-21 16:29:01 748

原创 pandas loc和iloc的区别

在pandas里要切分或者选取符合条件的行列数据，就用loc或者iloc函数，那么今天来具体讲解下这两者的区别。在这里直接给出结论，1、在dataframe没有具体的行索引名称（index)和列索引名称（columns）时，loc和iloc都可以通过位置来定位，但是loc是包括末尾索引数据，iloc不包括。2、在有具体的行索引名称（index)和列索引名称（columns）时，loc只能通过具体行、列名称来定位数据，iloc仍然只能通过位置来定位数据。import pandas as pdimport

2020-05-14 11:12:44 427

weixin_38003620的博客