孙志攀-CSDN博客

原创解决Hadoop伪分布式集群jps没有datanode节点问题

解决Hadoop伪分布式集群没有datanode节点问题

2022-08-10 22:40:39 11426 14

原创 tensorflow 基本操作以及函数介绍

tensorflow基本操作函数

2022-07-30 17:06:26 728

原创 matplotlib绘制多折线图（解决matplotlib中文无法显示问题）

matplotlib绘制折线图

2022-07-03 23:44:59 1618

原创 SQLyog 远程连接Linux上的Mysql数据库（详细问题解决）

1. 查找Linux IP 地址在shell中执行命令：ifconfig -a即可打印出ip地址2. 测试地址是否能连接电脑打开cmd输入 ping + （Linux IP）例如：若出现以下回复，代表连接没问题3. 打开控制面板，点击小图标找到程序和功能，勾选Telnet 客户端4. 关闭Windows防火墙5.关闭虚拟机的防火墙6. 进入虚拟机Mysql执行以下语句use mysqlupdate user set host='%' where user='roo

2022-03-08 21:39:57 2466

原创 linux系统(ubuntu)如何查看ip地址

在shell中执行命令：ifconfig -a即可打印出ip地址

2022-03-08 20:33:14 1460

原创第四节：Python中用pandas, numpy等清洗数据

准备import numpy as npimport pandas as pdnp.random.seed(12345)import matplotlib.pyplot as plt1、处理缺失数据缺失值在很多数据分析应用中出现pandas的目标之一就是尽可能“无痛”地处理缺失值pandas对象的所有描述性统计信息默认情况下是排除缺失值的pandas使用NaN(Not a Number)来表示缺失值from numpy import nan as NA #重命名NA为空值（

2022-02-01 10:14:52 2178

原创第三节：pandas结构详解（DataFrame详细用法介绍）

pandas入门pandas 是基于NumPy 的一种工具，该工具是为解决数据分析任务而创建的。pandas最初被作为金融数据分析工具而开发出来，因此，pandas为时间序列分析提供了很好的支持。Pandas的名称来自于面板数据（panel data）和python数据分析（data analysis）。pandas vs NumPypandas支持大部分NumPy风格的数组计算。NumPy更适合处理同质型的的数值类数组数据,而pandas使用用来处理表格型或异质型数据。导入必要包1. p

2022-01-28 19:21:11 1900

原创数据仓库ETL技术探究

ETL概述在构建商业智能系统的时候，如何正确有效地将分散在各个不同数据源中的信息整合到系统中成为了整个系统成败的关键，直接影响到系统的运行效率和最终结果。ETL正是解决这一问题的有力工具。ETL是指把数据从数据源装人数据仓库的过程，即数据的抽取(Extract)、转换(Transform)和装载(Load)过程。ETL过程的实质就是符合特定规则的数据流动过程，从不同异构数据源流向统一的目标数据。其间，数据的抽取、清洗、转换和装载形成串行或并行的过程，每个过程都必须符合特定的规则。根据国内外众多实践得到

2022-01-28 11:37:31 2864

原创第二节：Python函数和文件操作

1、函数函数是Python中最重要、最基础的代码组织和代码复用方式。如果需要多次使用重复相同或类似的代码，就非常值得写一个可复用的函数。将一定功能的代码块组织成一个函数并赋予一个函数名，提高代码的可读性。声明函数时使用def关键字，返回时使用return关键字。1.1 命名空间、作用域和本地函数函数有两种连接变量的方式：全局本地变量作用域 <–> 命名空间在函数内部，变量都是分配到本地命名空间的。本地命名空间在函数调用时生成；一般在函数执行结束后，本地命名空间就会别销毁。

2022-01-26 20:18:19 677

原创第一节：Python的内建数据结构（元组，列表，集合，字典，内建序列函数）

1. 数据结构和序列1.1元组（tuple）元组是一种固定长度、不可变的Python对象序列。创建元组最简单的就是用 , 分隔序列值1.2 列表列表的长度是可变的，所包含的内容也可以修改。可以使用[ ] 或list类型函数来定义列表.1.3 集合集合是一种无序且元素唯一的容器。集合可以通过两种方式创建：（1）通过set函数；（2）通过{}1.4 字典字典（dict）是拥有灵活尺寸的键、值对集合，其中键和值都是Python对象。字典又可称为哈希表

2022-01-26 19:40:57 1045

原创 C++写五子棋小游戏（详细代码可运行）

1.棋盘类：包含一个二维矩阵 int size[][] ，用于记录棋盘中各个坐标的状态，每个坐标有三个状态： (1)size[][]中的元素的为1，表示该处落入白子。 (2)size[][]中的元素的为-1，表示该处落入黑子。 (2)size[][]中的元素的为0，表示该处未落子。初始化方法initial();用于对棋盘进行初始化棋盘打印方法print();将棋盘打印出来。2.玩家类 //玩家姓名 string name; //玩家需要操作的棋盘 Panel

2022-01-21 16:34:34 10192 1

原创 C++编写简易通讯录系统(详细代码可运行)

功能目录1、添加联系人2、显示联系人3、删除联系人4、查找联系人5、修改联系人6、清空联系人0、退出联系人1、添加联系人在控制台中输入1就表示是添加联系人的功能，随后会依次出现 “姓名：”、“性别：”、“年龄：”、“联系电话：”、“联系地址：”的字样，我们只需正确输入即可，其中“性别：”中只能输入“男”或“女”，如果输入其他的字样就会被要求重新输入。还有这个添加联系人的添加人数是1000人。void addpeople(peoplebook* abs){ if (abs-&gt

2022-01-15 22:59:47 268

原创人力资源数据分析（包含数据来源文件）

数据源百度网盘：链接：https://pan.baidu.com/s/1EKxDdJDNqhqzucK6eH0Rew?pwd=1234提取码：1234数据字段及解释导入数据import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inlinedata = pd.read_csv('C:\\Users\\86199\\Desktop\\HR_c

2022-01-14 16:23:51 3158 2

原创销售数据仓库建立第二步：数据迁移，数据仓库事物表设计，存储过程设计，分析数据

实践任务设计电商数据仓库模型，实现从业务数据到仓库数据的抽取加载任务，并利用建立的数据仓库，实现模拟联机事务分析。（1）数据迁移数据迁移支持从关系数据库表数据的迁移加载和excel表格数据加载两种方式，文件数据加载至少要加载一个维表数据。从excel中向数据库迁移数据：（2）给出设计完成的数据仓库可视化模型图。（3）使用存储过程语句进行数据抽取：1.顾客维数据抽取：直接从顾客表抽取数据2.产品维数据抽取：直接从产品数据表抽取3.订单维数据抽取：直接从订单表抽取4.时间维数据抽

2022-01-09 23:37:08 1186

原创销售数据仓库建立第一步：销售订单数据库的建立

任务一：设计销售订单数据库。其中：产品信息包括产品编号、产品名称、产品分类；客户信息包括客户编号、客户名称、客户所在省、市、街道、邮编；销售订单包括订单号、产品编号、客户编号、订单时间、登记时间和订单金额。任务二：设计存储过程，生成100条销售订单数据。要求：提交编写的脚本，运行截图，上传实验报告文档。建表语句：CREATE TABLE `customer` ( `customer_number` int(11) NOT NULL COMMENT '客户编号', `customer_n

2022-01-09 23:17:44 3799

原创基于python分析航空公司客户价值《数据挖掘》课程实验报告

一、实验目的1）了解K-Means 聚类算法在客户价值分析实例中的应用。2）利用pandas快速实现数据z-score(标准差）标准化以及用scikit-learn 的聚类库实现K-Means聚类。二、实验环境python三、实验内容本上机实验的内容包括以下两个方面:依据航空公司客户价值分析的 LRFMC模型提取客户信息的 LRF"MC指标。对其进行标准差标准化并保存后,采用K-Means算法完成客户的聚类,分析每类客户的特征,从而获得每类客户的价值。1）利用pandas库读入 LRFMC

2022-01-09 22:03:16 12278 16

原创基于python文本挖掘的电商产品评论数据情感分析报告

背景近年来，随着互联网的广泛应用和电子商务的迅速发展，网络文本及用户评论分析意义日益凸显,因此网络文本挖掘及网络文本情感分析技术应运而生，通过对文本或者用户评论的情感分析，企业能够进行更有效的管理等。对于客户来说，可以借鉴别人的购买历史以及评论信息，更好的辅助自己制定购买决策。流程分析框架工具准备一、导入数据二、数据预处理（一）去重（二）数据清洗（三）分词、词性标注、去除停用词、词云图三、模型构建（一）决策树（二）情感分析（三）基于LDA模型的主题分析工具准备import o

2022-01-08 20:45:35 11064 21

原创 tableau数据分析及可视化——（电影票房以及酒店价格分析）（内含 tableau项目分析的十几种数据源）

tableau数据分析及可视化tableau数据源：链接：https://pan.baidu.com/s/1iOSpbX2QOKYqMbrxVRLC4g?pwd=1234提取码：1234Tableau数据分析可视化操作流程图：一、连接电影数据源打开Tableau软件，选择左下角已保存数据源。选择豆瓣电影数据进行连接。数据源内容如下：1.1 创建电影数量变化折线可以看出来最近几年电影数量有所下降二酒店数据分析连接酒店数据源1. 绘制酒店价格等级饼图列值选择酒店等级行选择价格

2022-01-08 17:27:58 4325 4

原创 Mysql 有一点难度的编程练习题（抖音短视频相关）

1. 求各个视频的平均完播率描述用户-视频互动表tb_user_video_log（uid-用户ID, video_id-视频ID, start_time-开始观看时间, end_time-结束观看时间, if_follow-是否关注, if_like-是否点赞, if_retweet-是否转发, comment_id-评论ID）短视频信息表tb_video_info（video_id-视频ID, author-创作者ID, tag-类别标签, duration-视频时长（秒）, release

2022-01-08 00:16:23 1258

原创用python爬取全国和全球疫情数据，并进行可视化分析(过程详细代码可运行)

python 爬取疫情数据，并进行分析

2022-01-06 22:16:14 40557 26

原创 Python爬取豆瓣Top250电影排行榜并作出数据分析

Python爬取豆瓣Top250电影排行榜并作出数据分析爬取数据爬取结果（text文本）对文本提取关键词分析提取结果创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入爬取数据import requestsimport reurl="https://movie.douban.com/top250" #网页地址headers={ #

2021-12-29 21:06:11 2472

sunzhipan11的博客