自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 资源 (3)
  • 收藏
  • 关注

原创 linux下 Mysql8.0 离线安装

Linux centos7.9 离线安装mysql8.0.36 , MySQL参数配置,报错处理

2024-04-22 17:13:01 401

原创 mysql 容器化安装(docker)离线和在线

在线和离线安装docker服务 ,在线和离线部署容器化mysql服务

2024-01-17 18:06:08 632

原创 时间序列预测各类算法探究上篇

时间序列基本概念、时序数据集、传统时序建模平稳性检验(单位根检验)+ 差分预处理自相关acf(auto-correlation function) 和偏自相关pacf(partial auto-correlation function) 图自相关 和 偏自相关 说明的问题ARIMA模型、机器学习模型LR (线性回归)

2023-11-15 17:19:35 244

原创 CDH集群离线配置python3环境,并安装pyhive、impyla、pyspark

1. CDH集群离线配置python3环境,并安装pyhive、impyla、pyspark。2. 使用远程Jupyterlab 服务,利用pyspark 对千万级数据在线分析

2023-08-22 11:19:49 979

原创 linux 常用命令总结与shell脚本

linux常用命令总结 如磁盘、端口、系统资源查看问题(free 、df、du、lsblk、lsof)ssh免密登录 cat、head、tail、more、less、sort、sed 内容查看命令 at、crontab 定时任务 > 、>> 、2>$1 重定向shell脚本 read 、echo 输入输出 变量 分支语句 if 、case 循环语句 for、while 函数

2023-03-22 16:28:04 593 1

原创 matplotlib与seaborn常用绘图及设置

matplotlib与seaborn常用绘图及设置 3种绘图方式 双系列柱状图 三维图绘制 小提琴图 填充图或面积图 动态图 修改坐标系显隐性及坐标轴位置 中文与负号显示乱码问题seaborn 绘图整体风格、环境 离散变量统计分析 分类散点图、箱型图、小提琴图、点图,柱状图等 FacetGrid catplot=FacetGrid+stripplot histplot、kdeplot joinplot pairplot PairGrid scatterplot lineplot regplot

2023-03-14 09:37:20 407

原创 机器学习总结四:逻辑回归与反欺诈检测案例

逻辑回归模型原理和损失函数推导;信用卡反欺诈案例;样本不平衡处理;特征衍生woe编码

2022-11-13 21:10:58 4249 1

原创 T检验、F检验、卡方检验、互信息法及机器学习应用

T检验、F检验、卡方检验统计学原理介绍;T检验、F检验、卡方检验案例计算;利用F检验(方差分析)和互信息法进行随机森林数字识别数据集特征筛选;使用卡方分箱进行连续值编码,生成woe编码。

2022-11-10 12:21:07 1275

原创 机器学习总结一:Bagging之决策树、随机森林原理与案例

决策树原理介绍,信息增益,信息增益率,基尼系数等公式和案例计算,随机森林原理,分类案例

2022-10-18 17:51:44 696

原创 机器学习总结三:SVM原理推导与案例

svm详细原理推导,svm 案例,绘制svm决策边界

2022-10-11 11:17:55 413

原创 机器学习总结二:boosting之GBDT、XGBT原理公式推导

集成算法boosting原理,gbdt、xgbt目标函数手动推导

2022-09-12 21:44:24 1723

原创 hive3.1安装配置与底层表存储原理

基于自建Hadoop集群,单节点配置hive服务,主要用于验证工作中的hsql和hive的底层表架构原理(hive外部表数据在哪,分区表在hadoop是怎么存储的等等)。纸上得来终觉浅,绝知此事要躬行。

2022-08-29 08:58:29 287

原创 Spark-core/SparkSQL总结及如何通过Jupyter交互式运行pyspark任务(spark on yarn)

RDD对象RDD常用算子RDD优化缓存RDD共享变量与累加器RDD全局并行度设置SparkSQL DataFrame构建SparkSQL DataFrame数据处理代码风格SparkSQL DataFrame 数据清洗APISparkSQL DataFrame 注册成表SparkSQL 数据写出SparkSQL 定义udf函数SparkSQL 开窗函数SparkSQL Shuffle 分区数目SparkSQL 执行流程–RDD对象。........................

2022-08-16 16:13:33 2316

原创 Spark on yarn 环境简单安装配置,python代码提交测试

使用云服务器搭建hadoop集群,hadoop、yarn和spark配置文件设置,spark on yarn 环境搭建,python任务提交测试,spark-submit提交python任务测试,及其spark-submit提交参数详解

2022-07-15 09:35:41 1072

原创 jupyter-lab 使用常规设置

1、 jupyter-lab 添加不同内核2、 jupyter-lab修改工作目录3、jupyter-lab 多行输出(单个cell)4、jupyter-lab指定默认浏览器5、jupyter-lab 远程访问服务

2022-06-20 23:12:01 797

原创 Hugging Face 中文预训练模型使用介绍及情感分析项目实战

HuggingFace Transformers库中文预训练语言模型使用介绍,包含pipeline的简单使用,不同Model架构的输出,最后评论数据情感分析项目实践。

2022-05-29 22:36:31 5120 9

原创 基于word2vec+TextCNN 实现中文文本分类

基于word2vec+TextCNN 作文本分类; 文学、体育、女性、校园文本分类数据集,利用jieba库进行分词、去停用词、使用卷积神经网络进行文本分类。模型参数配置# 模

2022-05-25 23:00:53 1519 6

原创 基于pytorch的dcgan代码实现,进行简易图像数据生成

使用numpy创建简易图像数据,使用dcgan生成对抗网络进行图像的自动生成

2022-05-12 19:41:43 1448

原创 记录python使用pymysql连接mysql数据库,使用impyla、ibis-framework[impala]连接hive\impala(kerberos)数据库(备以后查阅)

记录python使用pymysql连接mysql数据库,使用impyla、ibis-framework[impala]连接hive\impala(kerberos)数据库连接mysql 数据库# @time: 2022/1/21 13:12 # @function : 连接mysql数据库import pymysqlimport pandas as pdclass Mysql_: def __init__(self): self.db = pymy

2022-05-03 17:21:41 2159

原创 基于ResNet残差卷积网络进行验证码图片识别

使用ResNet卷积网络识别验证码图片备注:验证码训练集可以在有验证码网站获取(但前期标注比较恶心),这里使用captcha自动进行验证码图像生成,验证码为4位数字,范围0~4(范围较小方便训练),使用pillow和opencv两种方法进行了图像预处理,使用torch+cpu训练。网络架构图0.1 整体结构0.2 残差单元结构0.3 部分识别结果展示导包from captcha.image import ImageCaptchaimport matplotlib.pyplot

2022-04-24 09:41:18 1027

原创 大数据及其组件通俗理解(组件间发展历程,为什么出现、替代或了什么功能)

大数据及其组件通俗理解(组件间发展历程,为什么出现、替代或了什么功能)最近因工作,需要使用python对接大数据平台做数据清洗、算法模型部署等工作,就花时间好好了解一下“大数据”这个高大上的概念到底是什么?及其各组件间的作用。下面是我读过的一篇非常好的文章(忽略里面特色词汇)阐述大数据组件间的发展历程,对不了解大数据的我很有帮助,有了整个骨架,才好去注入血液填充灵魂。原作者:tracy_668链接:https://www.jianshu.com/p/42fc9941e105来源:简书1、大数据产生

2022-04-14 14:25:29 530

原创 使用循环神经网络训练语言模型(从简单起手、歌词生成器,爬虫+GRU循环网络)

使用循环神经网络训练语言模型(从简单起手、汪峰老师歌词生成器,爬虫+GRU循环网络)第一部分:歌词爬取(本次主要是训练语言模型,百度随便搜的歌词下载网站,编写爬虫脚本自动下载歌词)第二部分:网络构建,歌词生成测试(使用GRU门控循环网络,进行语言模型训练,根据预先给定词,自动向后编写歌词)结果展示: 输入 “生命就” 3个字,自动生成后续歌词: “生命就像找 让我们彼此坦诚 现在或永不 感觉越来越虚无 就像我越来越硬可与你无关 我发现了一些迹象 让我疼痛”第一部分:爬虫impo

2022-04-13 22:23:38 1293

原创 **机器学习类别变量常用编码方式(部分编码方式可以解决独热编码过于稀疏问题**)

机器学习,类别变量 各种编码方式 解决独热编码过于稀疏问题

2022-03-29 16:48:57 2055

原创 FashionMNIST_CNN with pytorch (accuracy: 97.58%/90.1%)

FashionMNIST_CNN with pytorch (accuracy: 97.58%/90.1%)接上篇,想进行各种CCN经典网络的效果对比,因为个人电脑配置原因失败,不得以科学上网,注册了kaggle进行训练,整体训练分两部分:1 创建CNN网络训练(网络简单,大概后台运行了5h);2 使用后台运行产生的模型,进行测试集预测结果如下:#1 ----------- first/第一步:kaggle后台训练模型 -------------------------import torc

2022-03-25 10:13:57 2934

原创 LSTM时序数据预测实践(实时股票数据)

使用pandas_datareader库获取实时股票数据,利用LSTM进行股票预测

2022-03-16 18:16:47 2885 1

原创 验证LSTM内部实现流程,加深对LSTM的印象

理解LSTM计算的原理,并手动验证内部计算流程

2022-03-14 11:38:32 912

原创 RNN输入数据加工问题与循环流程分析(torch)

简单理解RNN原理计算,和RNN特征输入问题

2022-03-10 17:03:47 2205

原创 手工简单复现经典CNN网络测试(LeNet5、AlexNet、VGG16、GoogLeNet、ResNe)

手工简单复现经典CNN网络测试**前言:**突然想把看到的机器视觉的经典网络(LeNet5、AlexNet、VGG16、GoogLeNet、ResNet)手工复现一遍,运气好的可以看到效果时逐渐趋于完美的,但现实是残酷的,这里把遇到的问题和部分结果记录以下(真心认为解决问题的过程就是成长的过程)1、导入相关包import torchvisionfrom torchvision.datasets import FashionMNISTimport torchvision.transforms as

2022-03-01 09:48:45 1255 4

原创 手动创建词向量训练神经网络

一直不太明白词向量怎样产生,搜索生成原理后,自己分别使用word2vector和自建单隐层神经网络进行训练(数据集优美,量少,不用太在意训练效果,主要记录流程)先介绍数据处理与网络架构:1.训练数据集:import torchimport torch.nn as nnfrom torch.nn import CrossEntropyLossfrom torch.optim import SGDimport jiebafrom gensim import corporaimport

2022-02-13 20:00:34 629

原创 验证 CrossEntropyLoss 内部运算过程

验证 CrossEntropyLoss 内部运算过程import torchfrom torch.nn import CrossEntropyLossfrom torch.optim import SGD假设三分类真实值real 和预测值predreal = [0,1,1,2]pred = [[0.7,0.2,0.1],[0.1,0.6,0.3],[0.1,0.6,0.3],[0.2,0.2,0.6]]real = torch.tensor(real)pred = torch.tens

2022-02-09 09:37:45 561

原创 gensim简单使用

详细了解参见这篇,写的很棒https://blog.csdn.net/imsuhxz/article/details/87337608

2022-01-30 15:41:53 1965

原创 xgboost的predict接口输出问题以及相关参数的探究(evals、evals_result、verbose_eval、pred_leaf、pred_contribs)、利用gbdt进行特征组合

一、一直对xgboost的输出有些疑惑,这里记录一下1.xgboost的predict接口输出问题(参数pred_leaf、pred_contribs)2.训练过程中输出相关参数的探究(evals、evals_result、verbose_eval)3.多分类内部原理探究(不涉及源码)4.利用gbdt进行特征组合问题(gbdt+lr)二、导入验证数据,验证问题针对问题1# 导入数据import xgboostfrom sklearn.datasets import load_iris(多分

2022-01-30 10:54:53 5346

原创 线性代数的通俗理解

从大学到现在,一直感觉对线性代数没有一个整体认知,导致学习事倍功半,下面分享两位大神分别对线性代数的整体认知理解(不牵涉公式),看完以后有种顿悟的感觉。第一篇:大白话式介绍第二篇:大佬式介绍...

2021-11-30 09:34:55 689

原创 jupyterhub (多用户平台)安装配置、安装问题解决、用户验证问题

jupyterhub 安装、安装问题解决、用户验证问题一,基础环境腾讯云centos7 + anaconda3(python3.8.8)​ 注意:最好是带有网的环境,不带外网的电脑离线安装jupyterhub安装很费劲,github源码、whl等均失败。二,下载软件安装jupyterhubpip install jupyterhub -i XXX 有网可以使用清华源/没网找自己公司镜像源注意:使用conda安装会很慢,偶尔会失败,不知道为什么,目前自动安装jupyterhub1.

2021-11-18 10:04:13 3407 1

原创 不同算法下校准曲线对比

from sklearn.datasets import make_classificationfrom sklearn.calibration import calibration_curve # 校准曲线from sklearn.ensemble import RandomForestClassifierfrom sklearn.naive_bayes import GaussianNBfrom sklearn.linear_model import LogisticRegressionfr

2021-10-22 10:12:28 1020

原创 手写简单的BP(反向传播)算法,实现预测

手写简单的BP(反向传播)算法(一个隐藏层),网络结构如下:输入层shape:(1,2)w1.shape:(2,4)w2.shape:(4,4)具体代码实现及数据预测结果:import numpy as npimport matplotlib.pyplot as plt# 训练集特征2维X = np.array([[2,1],[-1,1],[-1,-1],[1,-1]])# 类别标签y = np.array([1,2,3,4])# 初始化权重矩阵np.random.seed(

2021-10-15 15:37:48 851

原创 逻辑回的阈值0.5修改问题

逻辑回归阈值修改#使用sklearn乳腺癌数据集验证from sklearn.datasets import load_breast_cancerfrom sklearn.linear_model import LogisticRegression as LRimport numpy as npnp.set_printoptions(suppress=True)data = load_breast_cancer()lr = LR().fit(data.data,data.target)

2021-09-14 09:54:42 1503

原创 随机森林的重要参数、接口及其使用

随机森林的重要参数、接口及其使用from sklearn.tree import DecisionTreeClassifierfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.datasets import load_winefrom sklearn.model_selection import train_test_split,cross_val_scoreimport matplotlib.pyplot as plt

2021-09-02 10:30:40 402

原创 pyqt+pyinstaller爬虫可视化问题记录

pyqt爬虫可视化技术栈:python3.7+pyqt5 + requests + pyinstaller界面如下:总结一下开发中问题:开始爬虫后,界面卡死问题问题解决:使用多线程,界面主程序与爬虫程序分线程运行。爬虫内容和爬虫日志的实时显示问题问题解决:爬取中界面实时显示,刚开始for循环发送实时内容,界面停顿,当for循环完成后​ 界面同时显示所有内容,之后该写成多线程发送如下图,还是没有解决,​ 最后

2021-08-30 18:15:10 116

原创 基于python 利用pyecharts作图,实现图表随数据变化实时更新

基于python 利用pyecharts作图,实现图表随数据变化实时更新利用vue和echarts可以设置定时获取数据渲染页面,但pyecharts做的图在前端页面上为JS中的一个对象数据,(利用Python搭建服务器定时返回新作的图表太麻烦目前不想这样做),那位大神有好办法不妨告知。。。目前采用定时修改pyecharts图表对象的属性值,在渲染页面:代码如下<!-- 初始化echarts图表 --> var chart_65e195a41f494479b5c980b2

2021-08-28 22:37:13 3678

en_core_web_sm-3.2.0-py3-none-any.whl

spaCy 预料包官方网址 https://github.com/explosion/spacy-models/releases 里面可以搜索下载各种语言版本的model

2021-11-20

nltk_data.zip

该资源主要包含nltk所需要的语言资源包,包括 punkt.zip、words.zip、wordnet.zip、maxent_ne_chunker.zip、averaged_perceptron_tagger.zip资源,放到nltk固定文件目录下,不用使用nltk.download('xxx')

2021-11-19

spider_system(源码).rar

使用pyqt5进行爬虫可视化界面开发,做到爬取指标选择,爬取内容和进度、日志等的实时显示。关联博客https://blog.csdn.net/a1314_521a/article/details/120002721

2021-09-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除