- 博客(297)
- 收藏
- 关注
原创 pip安装解决报错:WARNING: Running pip as the ‘root‘ user can result in broken permissions and conflicting
pip安装解决报错:WARNING: Running pip as the ‘root‘ user can result in broken permissions and conflicting
2023-03-22 10:51:11
303
原创 解决[Err] 1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause and contains nonaggregated
[Err] 1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause and contains nonaggregated
2023-03-15 16:15:28
111
原创 启动spark-sql时报错Caused by: MetaException(message:Hive Schema version 2.3.0 does not match metastore‘s
报错Hive Schema version 2.3.0 does not match metastore‘s schema version 1.2.0 Metastore is not
2023-03-08 18:51:24
33
原创 WARN ConfigParser - 插件[streamreader,streamwriter]加载失败,1s后重试... Exception:Code:[Common-00], Describe
WARN ConfigParser - 插件[streamreader,streamwriter]加载失败,1s后重试... Exception:Code:[Common-00]
2023-02-21 11:26:01
69
原创 Error:java: Compilation failed: internal java compiler error
Error:java: Compilation failed: internal java compiler error
2023-02-14 17:13:00
126
原创 Hive初始化报错Exception in thread “main“ java.lang.NoSuchMethodError: com.google.common.base.
Hive初始化报错Exception in thread “main“ java.lang.NoSuchMethodError: com.google.common.base.
2022-11-13 16:34:03
1030
原创 hadoop-3.1.3启动报错:Attempting to operate on hdfs namenode as root
hadoop-3.1.3启动报错:Attempting to operate on hdfs namenode as root
2022-10-31 12:49:40
120
原创 图形界面工具在连接MySQL8时出现“Authentication plugin ‘caching_sha2_password‘ cannot be loaded”错误
Authentication plugin 'caching_sha2_password' cannot be loaded
2022-05-16 00:06:30
348
原创 Flink执行jar报错:java.io.IOException: Error opening the Input Split file 或者 java.io.FileNotFoundExceptio
Flink执行jar报错:java.io.IOException: Error opening the Input Split file 或者 java.io.FileNotFoundExceptio
2022-05-10 22:23:08
631
原创 使用IDEA在编写spark sql时找不到import
一、问题表现首先import报错是因为没有导入相应的jar包,缺少某个库。找到之后,需要将该库、jar包,加入到当前项目,使得代码中的import xxx得以正常导入二、解决方法1、去apache(点击这里可直接进入)官网下载apache.spark2、打开IDEA软件点击File——>Project Structure——>Modules——>Dependencies3、点击右边的+,选择 Jars或目录,选择下载好的Jar包,单击确定,然后勾选中刚添加进去的jars
2022-04-29 22:02:39
1633
1
原创 执行 ntpq -p 报错:Name or service not known
执行ntpq -p 报错:Name or service not known
2022-04-13 09:42:29
1191
原创 navicat连接mysql数据库出现2059错误
一、报错信息如下图所示:二、错误原因在mysql8之前的版本中加密规则为mysql_native_password,而在mysql8以后的加密规则为caching_sha2_password。三、解决方法(1)更新navicat驱动来解决此问题(2)将mysql用户登录的加密规则修改为mysql_native_password(推荐用这个)第二种方式如下:1、用管理员权限打开cmd,输入mysql -u root -p进入输入密码后进入mysql数据库;mysql -u root -p #
2021-04-08 21:06:06
841
3
原创 使用IDEA连接mysql数据库后不显示表
问题:使用IDEA连接mysql后不显示表如下图所示:解决方法:点击“工具”,并选择相应的表格如下图所示:已显示表格
2021-04-08 20:50:55
2491
原创 Python爬取安居客(base64加密)
测试base64加密:http://tool.chinaz.com/Tools/Base64.aspx基本原理:https://www.cnblogs.com/hongru/archive/2012/01/14/2321397.html一、分析url访问网址:https://bj.zu.anjuke.com/发现字体部分是加密得到的,可以猜想到大概是css加密,尝试查看它的字体。去style中找下这个字体的来源查看自定义字体的格式,如下所示:@font-face { font-f
2020-10-14 08:15:54
1809
1
原创 Python爬取有道翻译(js-加密)
一、分析URL先尝试爬取一下:import requests# url = "http://www.httpbin.org/post"url = "http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule"headers = { 'X-Requested-With': 'XMLHttpRequest', 'User-Agent': 'Mozilla/5.0 (Macintosh; In
2020-10-13 14:37:59
728
1
原创 python破解验证码
一、需求分析在爬虫过程中,有的时候需要登录,而登录的时候一般需要验证码。如果手动输入验证码肯定来不及的或达不到预期要求,这里就需要自动登录,这就意味着需要破解验证码。验证码的类型有很多,常见的两类:(1)文字验证码(2)滑动图形验证验证码有很多种类,下面以这两种为讲解思路引导。文字验证码(1)使用selenium访问(2)将验证码图片保存(3)识别滑动验证(1)计算滑动距离(2)模拟人滑动(总体思路是先快再慢)实现文字验证码,可以使用图像识别技术,有很多第三方做好的图
2020-10-10 17:46:17
2650
原创 Python爬取斗鱼直播网站信息
一、需求爬取斗鱼直播网站信息,如直播名字、主播名字、热度、图片和房间网址,将这些数据保存到csv文件中,并单独创建文件夹保存图片。斗鱼直播网址:https://www.douyu.com/g_LOL二、分析url先单击【直播】,然后单击分页,发现分页的时候url没发生变化,基本可以确定是通过异步加载的。现在找到了异步url。此时,可以直接向url发送请求后去数据,还可以使用selenium获取加载之后的网页总数据,提取。三、数据提取有两种办法可以选择:(1)如果使用ajax异步u
2020-10-10 09:08:12
1486
原创 Python爬取豆瓣读书
一、需求爬取豆瓣读书Top250(csv存取数据)豆瓣读书网址:https://book.douban.com/top250?start=0二、代码实现import requestsimport csvfrom lxml import etreeheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36' '(KHTML, like
2020-10-09 16:40:11
972
原创 Python爬取腾讯招聘信息
一、分析需求腾讯招聘网址:https://careers.tencent.com/search.html分析获取url:提取数据的方法:使用json转字典二、代码实现import requestsimport csvurl = "https://careers.tencent.com/tencentcareer/api/post/Query"headers = { "user-agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKi
2020-10-09 11:44:41
2061
2
原创 Python爬取豆瓣电影
一、分析url单击分类信息,跳转到分类电影列表。这个页面是有多页数据加载的,当用户向下滚动右侧的滚动,加载数据,这个经过分析是ajax加载的数据,需要找到ajax请求的网址。先找到分类,提取分类的名字和类型编号,然后再爬分类下的电影数据。二、提取数据的方法ajax返回的数据是json,response.json()得到的是字典,用字典操作就可以了,当然肯定可以用正则。其实专门操作json的有一个模块叫jsonpath。三、代码实现import requestsimport rei
2020-10-09 09:34:34
1421
1
原创 Python爬取古诗词
一、需求爬取网址:https://www.gushiwen.org/需求:(1)获取侧边栏【类型】信息;(2)获取每个类型中古诗文详情页信息;(3)提取详情页数据:古诗文名、作者、朝代、类型、内容、译文及注释;(4)将数据保存到 csv 文件;二、代码实现import requestsimport csvfrom lxml import etreestart_url = "https://so.gushiwen.cn/shiwen/"base_url = "https://so
2020-10-08 11:39:06
3184
原创 Python爬取扇贝Python必背词汇
一、需求分析爬取网址:http://www.shanbay.com/wordlist/110521/232414/需求:获取所有的 python 词汇数据,形成字典,存储数据。二、代码实现#导入包from urllib import requestfrom lxml import etree#词汇表words = []def shanbei(page): url = "http://www.shanbay.com/wordlist/110521/232414/"
2020-10-07 16:48:57
713
1
原创 Python爬取网易云音乐所有歌手的名称和链接
一、需求Python爬取网易云音乐所有歌手的名称和链接二、代码实现import requestsfrom lxml import etreefrom urllib import requestimport timeclass WangYiYun: def __init__(self, base_url): # 初始化tree self.html = self.request_url(base_url) self.parse_html(
2020-10-07 16:36:59
1724
3
原创 Python编写简单的剪刀石头布小程序
一、程序要求(1)提示用户选择石头剪刀布(2)计算机随机选择石头剪刀布(3)判断用户输赢(4)打印结果二、代码实现import random# 电脑人随机出拳computer = random.randint(1, 3)user = int(input('请出拳:1.拳头,2.剪刀,3.布'))if computer == 1: computer = '拳头'elif computer == 2: computer = '剪刀'else: compute
2020-10-05 18:03:11
10542
7
原创 Python编写简单的计算器,用户输入两个数字和一个四则运算符,计算结果
一、程序要求(1)提示用户从键盘输入第一个数字(2)提示用户从键盘输入第二个数字(3)提示用户选择运算符(4)打印结果二、代码实现a = int(input("请输入第一个数:"))b = int(input("请输入第二个数:"))symbol = input("请输入四则运算符号:(+-*/)")if symbol == "+": print("%s%s%s=%s"%(a,symbol,b,a+b))elif symbol == "-": print("%s%s%s=
2020-10-05 17:41:34
26283
1
原创 RDD 的五大特性(详细解析)
RDD 的五大特性一、简介版二、详细版一、简介版(1)A list of partitions一组分区:RDD由很多partition构成,有多少partition就对应有多少task(2)A function for computing each split一个函数:对RDD做计算,相当于对RDD的每个split或partition做计算(3)A list of dependencies on other RDDsRDD之间有依赖关系,可溯源(4)Optionally, a P
2020-09-28 17:20:16
4596
原创 Cache缓存和checkpoint检查点的区别
(1)Cache缓存只是将数据保存起来,不切断血缘依赖。Checkpoint检查点切断血缘依赖。(2)Cache缓存的数据通常存储在磁盘、内存等地方,可靠性低。Checkpoint的数据通常存储在HDFS等容错、高可用的文件系统,可靠性高。(3)建议对checkpoint()的RDD使用Cache缓存,这样checkpoint的job只需从Cache缓存中读取数据即可,否则需要再从头计算一次RDD。(4)如果使用完了缓存,可以通过unpersist()方法释放缓存。...
2020-09-25 19:05:10
1793
原创 MySQL与Redis的区别与联系(详细解析!!!)
MySQL与Redis的区别与联系一、MySQL和Redis的数据库类型二、MySQL和Redis的运行机制三、什么是缓存数据库?四、Redis和MySQL的区别总结4.1 数据库类型4.2 数据库作用4.3 业务需求4.4 应用场景4.5 数据存放位置4.6 存放数据类型(常用)五、数据可不可以直接全部用Redis存储?一、MySQL和Redis的数据库类型1、Mysql是关系型数据库,主要用于存放持久数据,将数据存放在硬盘中,读取速度相对较慢。2、Redis是NOSQL数据库,即非关系型数据库,也
2020-09-24 17:34:23
7374
1
原创 HDFS、Hbase、MySQL、Redis和hive之间的区别分析
(1)HDFS:为分布式存储提供文件系统(1)Redis:分布式缓存,基于内存并且强调缓存,支持数据持久化,支持事务操作。(2)MySQL:传统关系型数据库,注重关系,注重事务性。(3) hive:数据仓库工具,底层是mapreduce。不是数据库,不能用来做用户的交互存储1、HDFS为分布式存储提供文件系统针对存储大尺寸的文件进行优化,不需要对HDFS上的文件进行随机读写直接使用文件数据模型不灵活使用文件系统和处理框架优化一次写入,多次读取的方式2、HBase提供表状的面向列的数据
2020-09-22 22:41:54
2991
原创 Spark和Hadoop的异同点比较分析(很详细哦!!!)
Spark和Hadoop的异同点分析一、两者实现原理的比较二、 两者多方面的对比三、Spark和MR两者之间的详细对比分析(重点)3.1 速度3.2 容错性3.3 适用性3.4 框架和生态3.5 运行环境四、三大分布式计算框架系统(1)Spark:是分布式计算平台,是一个用scala语言编写的计算框架,基于内存的快速、通用、可扩展的大数据分析引擎 。(2)Hadoop:是分布式管理、存储、计算的生态系统;其中包括三大部分:HDFS(存储)、MapReduce(计算)、Yarn(资源调度)一、两者实现
2020-09-22 20:57:20
10372
原创 intellij idea在编写代码时无法使用回车键
1、问题:在使用intellij idea编写代码时无法使用回车键,换到下一行继续编写代码,按下回车键之后下一行代码却被删除了。2、解决方法:可能是在编写代码时不小心按了 Insert 键,只需要再次按下 Insert 键即可。那么有些笔记本键盘没有insert键怎么办呢?因为我用的惠普电脑,以惠普为例:(1)首先,按住shift+fn 是的fn键上的灯亮起。(2)然后,按住fn+E回车键就有原来的换行功能啦!惠普笔记本的隐藏按键:...
2020-09-21 09:27:13
7189
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人