- 博客(42)
- 资源 (3)
- 收藏
- 关注
原创 时间序列预测各类算法探究上篇
时间序列基本概念、时序数据集、传统时序建模平稳性检验(单位根检验)+ 差分预处理自相关acf(auto-correlation function) 和偏自相关pacf(partial auto-correlation function) 图自相关 和 偏自相关 说明的问题ARIMA模型、机器学习模型LR (线性回归)
2023-11-15 17:19:35 244
原创 CDH集群离线配置python3环境,并安装pyhive、impyla、pyspark
1. CDH集群离线配置python3环境,并安装pyhive、impyla、pyspark。2. 使用远程Jupyterlab 服务,利用pyspark 对千万级数据在线分析
2023-08-22 11:19:49 979
原创 linux 常用命令总结与shell脚本
linux常用命令总结 如磁盘、端口、系统资源查看问题(free 、df、du、lsblk、lsof)ssh免密登录 cat、head、tail、more、less、sort、sed 内容查看命令 at、crontab 定时任务 > 、>> 、2>$1 重定向shell脚本 read 、echo 输入输出 变量 分支语句 if 、case 循环语句 for、while 函数
2023-03-22 16:28:04 593 1
原创 matplotlib与seaborn常用绘图及设置
matplotlib与seaborn常用绘图及设置 3种绘图方式 双系列柱状图 三维图绘制 小提琴图 填充图或面积图 动态图 修改坐标系显隐性及坐标轴位置 中文与负号显示乱码问题seaborn 绘图整体风格、环境 离散变量统计分析 分类散点图、箱型图、小提琴图、点图,柱状图等 FacetGrid catplot=FacetGrid+stripplot histplot、kdeplot joinplot pairplot PairGrid scatterplot lineplot regplot
2023-03-14 09:37:20 407
原创 T检验、F检验、卡方检验、互信息法及机器学习应用
T检验、F检验、卡方检验统计学原理介绍;T检验、F检验、卡方检验案例计算;利用F检验(方差分析)和互信息法进行随机森林数字识别数据集特征筛选;使用卡方分箱进行连续值编码,生成woe编码。
2022-11-10 12:21:07 1275
原创 机器学习总结一:Bagging之决策树、随机森林原理与案例
决策树原理介绍,信息增益,信息增益率,基尼系数等公式和案例计算,随机森林原理,分类案例
2022-10-18 17:51:44 696
原创 hive3.1安装配置与底层表存储原理
基于自建Hadoop集群,单节点配置hive服务,主要用于验证工作中的hsql和hive的底层表架构原理(hive外部表数据在哪,分区表在hadoop是怎么存储的等等)。纸上得来终觉浅,绝知此事要躬行。
2022-08-29 08:58:29 287
原创 Spark-core/SparkSQL总结及如何通过Jupyter交互式运行pyspark任务(spark on yarn)
RDD对象RDD常用算子RDD优化缓存RDD共享变量与累加器RDD全局并行度设置SparkSQL DataFrame构建SparkSQL DataFrame数据处理代码风格SparkSQL DataFrame 数据清洗APISparkSQL DataFrame 注册成表SparkSQL 数据写出SparkSQL 定义udf函数SparkSQL 开窗函数SparkSQL Shuffle 分区数目SparkSQL 执行流程–RDD对象。........................
2022-08-16 16:13:33 2316
原创 Spark on yarn 环境简单安装配置,python代码提交测试
使用云服务器搭建hadoop集群,hadoop、yarn和spark配置文件设置,spark on yarn 环境搭建,python任务提交测试,spark-submit提交python任务测试,及其spark-submit提交参数详解
2022-07-15 09:35:41 1072
原创 jupyter-lab 使用常规设置
1、 jupyter-lab 添加不同内核2、 jupyter-lab修改工作目录3、jupyter-lab 多行输出(单个cell)4、jupyter-lab指定默认浏览器5、jupyter-lab 远程访问服务
2022-06-20 23:12:01 797
原创 Hugging Face 中文预训练模型使用介绍及情感分析项目实战
HuggingFace Transformers库中文预训练语言模型使用介绍,包含pipeline的简单使用,不同Model架构的输出,最后评论数据情感分析项目实践。
2022-05-29 22:36:31 5120 9
原创 基于word2vec+TextCNN 实现中文文本分类
基于word2vec+TextCNN 作文本分类; 文学、体育、女性、校园文本分类数据集,利用jieba库进行分词、去停用词、使用卷积神经网络进行文本分类。模型参数配置# 模
2022-05-25 23:00:53 1519 6
原创 记录python使用pymysql连接mysql数据库,使用impyla、ibis-framework[impala]连接hive\impala(kerberos)数据库(备以后查阅)
记录python使用pymysql连接mysql数据库,使用impyla、ibis-framework[impala]连接hive\impala(kerberos)数据库连接mysql 数据库# @time: 2022/1/21 13:12 # @function : 连接mysql数据库import pymysqlimport pandas as pdclass Mysql_: def __init__(self): self.db = pymy
2022-05-03 17:21:41 2159
原创 基于ResNet残差卷积网络进行验证码图片识别
使用ResNet卷积网络识别验证码图片备注:验证码训练集可以在有验证码网站获取(但前期标注比较恶心),这里使用captcha自动进行验证码图像生成,验证码为4位数字,范围0~4(范围较小方便训练),使用pillow和opencv两种方法进行了图像预处理,使用torch+cpu训练。网络架构图0.1 整体结构0.2 残差单元结构0.3 部分识别结果展示导包from captcha.image import ImageCaptchaimport matplotlib.pyplot
2022-04-24 09:41:18 1027
原创 大数据及其组件通俗理解(组件间发展历程,为什么出现、替代或了什么功能)
大数据及其组件通俗理解(组件间发展历程,为什么出现、替代或了什么功能)最近因工作,需要使用python对接大数据平台做数据清洗、算法模型部署等工作,就花时间好好了解一下“大数据”这个高大上的概念到底是什么?及其各组件间的作用。下面是我读过的一篇非常好的文章(忽略里面特色词汇)阐述大数据组件间的发展历程,对不了解大数据的我很有帮助,有了整个骨架,才好去注入血液填充灵魂。原作者:tracy_668链接:https://www.jianshu.com/p/42fc9941e105来源:简书1、大数据产生
2022-04-14 14:25:29 530
原创 使用循环神经网络训练语言模型(从简单起手、歌词生成器,爬虫+GRU循环网络)
使用循环神经网络训练语言模型(从简单起手、汪峰老师歌词生成器,爬虫+GRU循环网络)第一部分:歌词爬取(本次主要是训练语言模型,百度随便搜的歌词下载网站,编写爬虫脚本自动下载歌词)第二部分:网络构建,歌词生成测试(使用GRU门控循环网络,进行语言模型训练,根据预先给定词,自动向后编写歌词)结果展示: 输入 “生命就” 3个字,自动生成后续歌词: “生命就像找 让我们彼此坦诚 现在或永不 感觉越来越虚无 就像我越来越硬可与你无关 我发现了一些迹象 让我疼痛”第一部分:爬虫impo
2022-04-13 22:23:38 1293
原创 FashionMNIST_CNN with pytorch (accuracy: 97.58%/90.1%)
FashionMNIST_CNN with pytorch (accuracy: 97.58%/90.1%)接上篇,想进行各种CCN经典网络的效果对比,因为个人电脑配置原因失败,不得以科学上网,注册了kaggle进行训练,整体训练分两部分:1 创建CNN网络训练(网络简单,大概后台运行了5h);2 使用后台运行产生的模型,进行测试集预测结果如下:#1 ----------- first/第一步:kaggle后台训练模型 -------------------------import torc
2022-03-25 10:13:57 2934
原创 手工简单复现经典CNN网络测试(LeNet5、AlexNet、VGG16、GoogLeNet、ResNe)
手工简单复现经典CNN网络测试**前言:**突然想把看到的机器视觉的经典网络(LeNet5、AlexNet、VGG16、GoogLeNet、ResNet)手工复现一遍,运气好的可以看到效果时逐渐趋于完美的,但现实是残酷的,这里把遇到的问题和部分结果记录以下(真心认为解决问题的过程就是成长的过程)1、导入相关包import torchvisionfrom torchvision.datasets import FashionMNISTimport torchvision.transforms as
2022-03-01 09:48:45 1255 4
原创 手动创建词向量训练神经网络
一直不太明白词向量怎样产生,搜索生成原理后,自己分别使用word2vector和自建单隐层神经网络进行训练(数据集优美,量少,不用太在意训练效果,主要记录流程)先介绍数据处理与网络架构:1.训练数据集:import torchimport torch.nn as nnfrom torch.nn import CrossEntropyLossfrom torch.optim import SGDimport jiebafrom gensim import corporaimport
2022-02-13 20:00:34 629
原创 验证 CrossEntropyLoss 内部运算过程
验证 CrossEntropyLoss 内部运算过程import torchfrom torch.nn import CrossEntropyLossfrom torch.optim import SGD假设三分类真实值real 和预测值predreal = [0,1,1,2]pred = [[0.7,0.2,0.1],[0.1,0.6,0.3],[0.1,0.6,0.3],[0.2,0.2,0.6]]real = torch.tensor(real)pred = torch.tens
2022-02-09 09:37:45 561
原创 gensim简单使用
详细了解参见这篇,写的很棒https://blog.csdn.net/imsuhxz/article/details/87337608
2022-01-30 15:41:53 1965
原创 xgboost的predict接口输出问题以及相关参数的探究(evals、evals_result、verbose_eval、pred_leaf、pred_contribs)、利用gbdt进行特征组合
一、一直对xgboost的输出有些疑惑,这里记录一下1.xgboost的predict接口输出问题(参数pred_leaf、pred_contribs)2.训练过程中输出相关参数的探究(evals、evals_result、verbose_eval)3.多分类内部原理探究(不涉及源码)4.利用gbdt进行特征组合问题(gbdt+lr)二、导入验证数据,验证问题针对问题1# 导入数据import xgboostfrom sklearn.datasets import load_iris(多分
2022-01-30 10:54:53 5346
原创 线性代数的通俗理解
从大学到现在,一直感觉对线性代数没有一个整体认知,导致学习事倍功半,下面分享两位大神分别对线性代数的整体认知理解(不牵涉公式),看完以后有种顿悟的感觉。第一篇:大白话式介绍第二篇:大佬式介绍...
2021-11-30 09:34:55 689
原创 jupyterhub (多用户平台)安装配置、安装问题解决、用户验证问题
jupyterhub 安装、安装问题解决、用户验证问题一,基础环境腾讯云centos7 + anaconda3(python3.8.8) 注意:最好是带有网的环境,不带外网的电脑离线安装jupyterhub安装很费劲,github源码、whl等均失败。二,下载软件安装jupyterhubpip install jupyterhub -i XXX 有网可以使用清华源/没网找自己公司镜像源注意:使用conda安装会很慢,偶尔会失败,不知道为什么,目前自动安装jupyterhub1.
2021-11-18 10:04:13 3407 1
原创 不同算法下校准曲线对比
from sklearn.datasets import make_classificationfrom sklearn.calibration import calibration_curve # 校准曲线from sklearn.ensemble import RandomForestClassifierfrom sklearn.naive_bayes import GaussianNBfrom sklearn.linear_model import LogisticRegressionfr
2021-10-22 10:12:28 1020
原创 手写简单的BP(反向传播)算法,实现预测
手写简单的BP(反向传播)算法(一个隐藏层),网络结构如下:输入层shape:(1,2)w1.shape:(2,4)w2.shape:(4,4)具体代码实现及数据预测结果:import numpy as npimport matplotlib.pyplot as plt# 训练集特征2维X = np.array([[2,1],[-1,1],[-1,-1],[1,-1]])# 类别标签y = np.array([1,2,3,4])# 初始化权重矩阵np.random.seed(
2021-10-15 15:37:48 851
原创 逻辑回的阈值0.5修改问题
逻辑回归阈值修改#使用sklearn乳腺癌数据集验证from sklearn.datasets import load_breast_cancerfrom sklearn.linear_model import LogisticRegression as LRimport numpy as npnp.set_printoptions(suppress=True)data = load_breast_cancer()lr = LR().fit(data.data,data.target)
2021-09-14 09:54:42 1503
原创 随机森林的重要参数、接口及其使用
随机森林的重要参数、接口及其使用from sklearn.tree import DecisionTreeClassifierfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.datasets import load_winefrom sklearn.model_selection import train_test_split,cross_val_scoreimport matplotlib.pyplot as plt
2021-09-02 10:30:40 402
原创 pyqt+pyinstaller爬虫可视化问题记录
pyqt爬虫可视化技术栈:python3.7+pyqt5 + requests + pyinstaller界面如下:总结一下开发中问题:开始爬虫后,界面卡死问题问题解决:使用多线程,界面主程序与爬虫程序分线程运行。爬虫内容和爬虫日志的实时显示问题问题解决:爬取中界面实时显示,刚开始for循环发送实时内容,界面停顿,当for循环完成后 界面同时显示所有内容,之后该写成多线程发送如下图,还是没有解决, 最后
2021-08-30 18:15:10 116
原创 基于python 利用pyecharts作图,实现图表随数据变化实时更新
基于python 利用pyecharts作图,实现图表随数据变化实时更新利用vue和echarts可以设置定时获取数据渲染页面,但pyecharts做的图在前端页面上为JS中的一个对象数据,(利用Python搭建服务器定时返回新作的图表太麻烦目前不想这样做),那位大神有好办法不妨告知。。。目前采用定时修改pyecharts图表对象的属性值,在渲染页面:代码如下<!-- 初始化echarts图表 --> var chart_65e195a41f494479b5c980b2
2021-08-28 22:37:13 3678
en_core_web_sm-3.2.0-py3-none-any.whl
2021-11-20
nltk_data.zip
2021-11-19
spider_system(源码).rar
2021-09-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人