自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 Feign远程调用上传图片功能

Feign远程调用上传图片功能前提:使用easypoi上传excel时,由于已有对应的上传图片接口,所以需要将excel表格中解析出的图片去远程调取其他服务上对应的上传图片接口。由于对应的上传图片接口需要的参数为 MultipartFile,所以需要先将本地自己的图片路径转为该参数类型,如下所示: // 图片上传 File file = new File("D:/home/user");

2021-06-25 17:34:09 765

原创 Warning: Class ‘com.xxx.xxx‘ not found in module ‘xxxx‘

导入一个项目后,发现个别的启动类上都是红叉,在Run/Debug Configurations中Main class路径下报红,在下侧有一条提醒语句说 Warning: Class ‘com.xxx.xxx’ not found in module ‘xxxx’, 但实际中这些类都是存在的,尽管从新再导入该项目目录仍是无法解决。也想过是否有缓存导致,点击 File ——> Invalidate Caches / Restart 后,问题还是存在。后来有查到说是删除“.iml”文

2020-12-22 11:20:53 21723 6

原创 Kettle(PDI)(Windows)连接Hive(Linux)

1. 各个框架版本:kettle版本:pdi-ce-8.2.0.0-342hadoop版本:hadoop-2.6.0-cdh5.14.2hive版本:hive-1.1.0-cdh5.14.2hbase版本:hbase-1.2.0-cdh5.14.2JAVA版本:jdk1.8.0_271,需要配置环境变量,网上搜索windows 配置JAVA环境变量 跟着操作即可Kettle和JAVA安装在Windows中,其他的都在Linux中2. 下

2020-11-10 18:04:04 667

原创 Exception in thread “main“ java.lang.ClassNotFoundException: org.apache.hive.jdbc.HiveDriver

Exception in thread “main” java.lang.ClassNotFoundException: org.apache.hive.jdbc.HiveDriver在使用IDEA编写代码访问虚拟机上hive时,报错Exception in thread “main” java.lang.ClassNotFoundException: org.apache.hive.jdbc.HiveDriver。我使用的hive是cdh版本的,版本为hive-1.1.0-cdh5.14.2,我的当前

2020-10-26 15:41:58 3731

原创 数据分析基础篇16讲之12数据集成:这些大号一共20亿粉丝?

12 数据集成:这些大号一共20亿粉丝?数据集成:就是将多个数据源合并存放在一个数据存储中(如数据仓库),从而方便后续的数据挖掘工作。大数据项目中的数据集成包括有:数据清洗、数据抽取、数据集成和数据变换等操作。这是因为数据挖掘前我们的数据往往分布在不同的数据源中,需要考虑字段表达式是否一样,以及属性是否冗余。数据集成的两种架构:ELT和ETL一般来说,数据工程师的工作包括了数据的E...

2019-08-20 23:31:56 307

原创 数据分析基础篇16讲之11数据科学家80%时间都花费在了这些清洗任务上?

11 数据科学家80%时间都花费在了这些清洗任务上?假如采集的数据如下图所示:如果刚看到这些数据可能我们无法下手,因为这些数据中都没有标注,所以我们对这些数据进行重新整理。首先这些数据的代表含义是:这是一家服装店的会员数据,最上一行是列坐标,最左侧一列是行坐标列坐标中第0列代表的是序号,第1列代表的是会员姓名,第2列代表的是年龄,第3列代表体重,第46列代表男性会员三围尺寸,第79列...

2019-07-21 23:20:26 539

原创 数据分析基础篇16讲之10Python爬虫:如何自动化下载王祖贤海报?

10 Python爬虫:如何自动化下载王祖贤海报?爬虫的流程包括哪几个阶段?爬虫实际上是用浏览器访问的方式模拟了我们访问网站的过程。爬虫整个过程分为三个阶段,并在Python中有对应的工具可以使用:1.打开网页可以使用Python中Requests访问页面,得到服务器返回给我们的数据,这里包括HTML页面和JSON数据。2.提取数据在该过程中主要使用两个工具。针对HTML...

2019-07-08 22:58:13 314

原创 数据分析基础篇16讲之09数据采集:如何用八爪鱼采集微博上的“D&G”评论

09 数据采集:如何用八爪鱼采集微博上的“D&G”评论八爪鱼基本操作步骤:首先需要下载八爪鱼以及安装,安装就是下一步下一步即可。网页地址https://www.bazhuayu.com/download。安装完成后打开你会发现需要注册一个八爪鱼账号,很简单,操作一下即可。打开后首页面会有两个选择,一个是简易采集,一个是自定义任务简易采集中集成了一些热门的模板,也就是我们经常访...

2019-07-07 09:27:58 1661 2

原创 数据分析基础篇16讲之08数据采集:如何自动化采集数据?

08 数据采集:如何自动化采集数据?数据源分为以下四类以及各自如何使用:开放数据源:包括政府、企业和高校一般是针对行业的数据库。如美国人口调查局开放的美国人口信息、地区分布和教育情况数据等。贵州搭建的云平台,逐年开放的旅游、交通、商务等领域的数据。开放数据源可从两个维度来考虑:一个是单位的维度,如政府、企业、高校;另一个是行业维度,如交通、金融、能源等领域。爬虫爬取:包...

2019-07-01 00:20:43 541

原创 数据分析基础篇16讲之07用户画像:标签化就是数据的抽象能力

07 用户画像:标签化就是数据的抽象能力用户画像建模的三个步骤有哪些?以及它每一步骤的目的是什么?第一步:统一化目的:用来统计用户的唯一辨识,从而保证该用户的唯一性第二步:标签化目的:给用户添加标签,用来构建用户画像第三步:业务化目的:将用户画像和业务相关联,从而帮助业务抉择首先,为什么要设计唯一标识呢?用户唯一标识是整个用户画像的核心,以一个APP...

2019-06-30 14:18:37 693

原创 数据分析基础篇16讲之06学数据分析要掌握哪些基本概念?

06 学数据分析要掌握哪些基本概念?商业智能BI(Business Intelligence)、数据仓库DW(Data Warehouse)、数据挖掘DM(Data Mining)之间的关系是怎样的?商业智能BI:它是基于数据仓库,经过数据挖掘后,并获得了商业价值的一个过程。举例来说:数据仓库是金矿,数据挖掘是炼金术,那么商业报告就是最后的成品——黄金。数据仓库DW(数仓):数仓就...

2019-06-29 16:54:57 231

原创 数据分析基础篇16讲之05 Python科学计算:Pandas

05丨Python科学计算:PandasPandas可以说是一个基于NumPy的更高级数据结构和分析能力的工具包,其主要两个核心数据结构就是Series和DataFrame。SeriesSeries是一个定长的字典序列。那么为什么定长呢?那是因为在存储时,相当于两个ndarray,也是和字典结构的最大不同。因为在字典中,元素个数并不是固定的Series有两个基本属性:index和v...

2019-06-24 01:03:17 272

原创 数据分析基础篇16讲之04Python科学计算:用NumPy快速处理数据

04丨Python科学计算:用NumPy快速处理数据为什么要用 NumPy 数组结构而不是 Python 本身的列表 list?因为列表 list 的元素在系统内存中是分散存储的,而 NumPy 数组存储在一个均匀连续的内存块中。这样数组计算遍历所有的元素,不用像列表 list 那样还需要对内存地址进行查找,从而节省了计算资源。在内存访问模式中,缓存会直接把字节块从RAM加载到CPU中。因...

2019-06-22 10:40:36 492

原创 数据分析基础篇16讲之03Python基础语法:开始你的Python之旅

03 Python基础语法:开始你的Python之旅Python的IDE推荐有哪些?各有什么特点?PyCharm​ 是一个跨平台的Python开发工具,可帮助用户使用Python时提高效率,如:debug、语法高亮、调试、智能提示等Sublime Text​ Sublime Text 3启动快、反应速度快。同时也有代码高亮、语法提示等功能。(重点推荐)Vim​ 是一个简洁...

2019-06-20 11:21:37 204

原创 数据分析基础篇16讲之02学习数据挖掘的最佳路径是什么?

02 学习数据挖掘的最佳路径是什么?数据挖掘的基本流程分为哪六个步骤?1. 商业理解:我们要知道数据挖掘不是我们的目的,我们的目的是更好地理解业务,帮助业务,所以首先应从商业角度去理解项目需求,从而再利用数据挖掘对我们目标进行定义。2. 数据理解:利用部分数据集,对数据进行探索,包括数据的描述、数据的质量等,从而对数据有一个初步认识。3. 数据准备:收集数据、清洗数据、数据集成等操作。完成...

2019-06-10 23:50:20 344

原创 数据分析基础篇16讲之01数据分析全景图及修炼指南

第一模块:数据分析基础篇16讲01 数据分析全景图及修炼指南数据分析主要有哪几个重要组成部分?数据采集。它是我们的原材料,也是最**“接地气“**的部分,因为任何分析都需要有数据源。哪些常用数据源开源数据源爬虫获取日志采集传感器等数据采集工具八爪鱼Python爬虫搜集客等数据挖掘。它是最”高大上“的部分,也是整个商业价值所在。之所以需要进行数据分析,就...

2019-06-09 11:22:15 382

原创 数据分析实战45讲课程开篇词篇

数据分析实战45讲笔记(总结自极客时间陈旸老师)开篇词 你为什么需要数据分析能力?数据分析可以做哪些?通过数据分析,我们可以更好地了解用户画像,为企业做留存率、流失率等指标分析,从而精细化产品运营数据分析可以帮助预测比特币的走势数据分析可以为我们解决生活中的问题提供解决方案,如信用卡反欺诈,自动屏蔽垃圾邮件等什么是MAS方法?Multi-Dimension:想要掌握一个事物,就...

2019-06-08 23:00:04 1508

原创 数据库及mysql知识

数据库,mysql基础知识总结(单表操作)任何一门新的技术的出现和更新无外乎两方面: 1. 效率更高 2. 安全性更强.记忆:1.数据库才是实际开发中,我们真正存储数据的地方2.对数据库的增删改查操作合称为:CURD(Create,Update,Read,Delete)使用mysql中会遇到的问题:在Windows窗口下,可以通过以下指令控制mysql服务的开启和关闭:开...

2019-03-08 20:39:30 192

原创 spark

java.sql.SQLException: No suitable driver found for jdbc:mysql://localhost:3306/xxx的解决方案​ 今日在运行spark程序时,将数据存放到数据库中,idea一直报缺少合适的驱动,通过网上查询说是缺少必要的jar包的问题,然后我也不确定具体是哪个包,后来选择了一个在poem.xml文件中添加依赖,问题解决报错信息:...

2018-11-06 21:26:21 170

原创 在执行hdfs文件操作的时候抛异常 winutils问题的解决

在执行hdfs文件操作的时候抛异常 winutils问题的解决:该问题出现的地方是在对hdfs文件进行操作时,出现的原因是因为我将 hadoop安装在了虚拟机上,所以产生了该问题但该问题并不影响对hdfs文件的一些操作(比如下载hdfs文件到本地).解决方法:配置HADOOP_HOME, 我的电脑 ---->属性 ------> 高级系统配置新建中变量名为...

2018-10-16 01:07:56 380

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除