故明所以-CSDN博客

一、问题表现首先import报错是因为没有导入相应的jar包，缺少某个库。找到之后，需要将该库、jar包，加入到当前项目，使得代码中的import xxx得以正常导入二、解决方法1、去apache（点击这里可直接进入）官网下载apache.spark2、打开IDEA软件点击File——>Project Structure——>Modules——>Dependencies3、点击右边的+，选择 Jars或目录，选择下载好的Jar包，单击确定，然后勾选中刚添加进去的jars

2022-04-29 22:02:39 2263 1

原创执行 ntpq -p 报错：Name or service not known

执行ntpq -p 报错：Name or service not known

2022-04-13 09:42:29 2599

原创 navicat连接mysql数据库出现2059错误

一、报错信息如下图所示：二、错误原因在mysql8之前的版本中加密规则为mysql_native_password，而在mysql8以后的加密规则为caching_sha2_password。三、解决方法（1）更新navicat驱动来解决此问题（2）将mysql用户登录的加密规则修改为mysql_native_password（推荐用这个）第二种方式如下：1、用管理员权限打开cmd，输入mysql -u root -p进入输入密码后进入mysql数据库；mysql -u root -p #

2021-04-08 21:06:06 1406 3

原创使用IDEA连接mysql数据库后不显示表

问题：使用IDEA连接mysql后不显示表如下图所示：解决方法：点击“工具”，并选择相应的表格如下图所示：已显示表格

2021-04-08 20:50:55 3125

原创 Python爬取安居客(base64加密)

测试base64加密：http://tool.chinaz.com/Tools/Base64.aspx基本原理：https://www.cnblogs.com/hongru/archive/2012/01/14/2321397.html一、分析url访问网址：https://bj.zu.anjuke.com/发现字体部分是加密得到的，可以猜想到大概是css加密，尝试查看它的字体。去style中找下这个字体的来源查看自定义字体的格式，如下所示：@font-face { font-f

2020-10-14 08:15:54 2224 1

原创 Python爬取有道翻译(js-加密)

一、分析URL先尝试爬取一下：import requests# url = "http://www.httpbin.org/post"url = "http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule"headers = { 'X-Requested-With': 'XMLHttpRequest', 'User-Agent': 'Mozilla/5.0 (Macintosh; In

2020-10-13 14:37:59 818 1

原创 python破解验证码

一、需求分析在爬虫过程中，有的时候需要登录，而登录的时候一般需要验证码。如果手动输入验证码肯定来不及的或达不到预期要求，这里就需要自动登录，这就意味着需要破解验证码。验证码的类型有很多，常见的两类：（1）文字验证码（2）滑动图形验证验证码有很多种类，下面以这两种为讲解思路引导。文字验证码(1)使用selenium访问(2)将验证码图片保存(3)识别滑动验证(1)计算滑动距离(2)模拟人滑动(总体思路是先快再慢)实现文字验证码，可以使用图像识别技术，有很多第三方做好的图

2020-10-10 17:46:17 3722

原创 Python爬取斗鱼直播网站信息

一、需求爬取斗鱼直播网站信息，如直播名字、主播名字、热度、图片和房间网址，将这些数据保存到csv文件中，并单独创建文件夹保存图片。斗鱼直播网址：https://www.douyu.com/g_LOL二、分析url先单击【直播】，然后单击分页，发现分页的时候url没发生变化，基本可以确定是通过异步加载的。现在找到了异步url。此时，可以直接向url发送请求后去数据，还可以使用selenium获取加载之后的网页总数据，提取。三、数据提取有两种办法可以选择：（1）如果使用ajax异步u

2020-10-10 09:08:12 2451

原创 Python爬取豆瓣读书

一、需求爬取豆瓣读书Top250（csv存取数据）豆瓣读书网址：https://book.douban.com/top250?start=0二、代码实现import requestsimport csvfrom lxml import etreeheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36' '(KHTML, like

2020-10-09 16:40:11 1164

原创 Python爬取腾讯招聘信息

一、分析需求腾讯招聘网址：https://careers.tencent.com/search.html分析获取url：提取数据的方法：使用json转字典二、代码实现import requestsimport csvurl = "https://careers.tencent.com/tencentcareer/api/post/Query"headers = { "user-agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKi

2020-10-09 11:44:41 2764 2

原创 Python爬取豆瓣电影

一、分析url单击分类信息，跳转到分类电影列表。这个页面是有多页数据加载的，当用户向下滚动右侧的滚动，加载数据，这个经过分析是ajax加载的数据，需要找到ajax请求的网址。先找到分类，提取分类的名字和类型编号，然后再爬分类下的电影数据。二、提取数据的方法ajax返回的数据是json，response.json()得到的是字典，用字典操作就可以了，当然肯定可以用正则。其实专门操作json的有一个模块叫jsonpath。三、代码实现import requestsimport rei

2020-10-09 09:34:34 1637 1

原创 Python爬取古诗词

一、需求爬取网址：https://www.gushiwen.org/需求：（1）获取侧边栏【类型】信息；（2）获取每个类型中古诗文详情页信息；（3）提取详情页数据：古诗文名、作者、朝代、类型、内容、译文及注释；（4）将数据保存到 csv 文件；二、代码实现import requestsimport csvfrom lxml import etreestart_url = "https://so.gushiwen.cn/shiwen/"base_url = "https://so

2020-10-08 11:39:06 4472

原创 Python爬取扇贝Python必背词汇

一、需求分析爬取网址：http://www.shanbay.com/wordlist/110521/232414/需求：获取所有的 python 词汇数据，形成字典，存储数据。二、代码实现#导入包from urllib import requestfrom lxml import etree#词汇表words = []def shanbei(page): url = "http://www.shanbay.com/wordlist/110521/232414/"

2020-10-07 16:48:57 947 1

原创 Python爬取网易云音乐所有歌手的名称和链接

一、需求Python爬取网易云音乐所有歌手的名称和链接二、代码实现import requestsfrom lxml import etreefrom urllib import requestimport timeclass WangYiYun: def __init__(self, base_url): # 初始化tree self.html = self.request_url(base_url) self.parse_html(

2020-10-07 16:36:59 2137 3

原创 Python编写简单的剪刀石头布小程序

一、程序要求（1）提示用户选择石头剪刀布（2）计算机随机选择石头剪刀布（3）判断用户输赢（4）打印结果二、代码实现import random# 电脑人随机出拳computer = random.randint(1, 3)user = int(input('请出拳：1.拳头，2.剪刀，3.布'))if computer == 1: computer = '拳头'elif computer == 2: computer = '剪刀'else: compute

2020-10-05 18:03:11 11372 7

原创 Python编写简单的计算器，用户输入两个数字和一个四则运算符，计算结果

一、程序要求（1）提示用户从键盘输入第一个数字（2）提示用户从键盘输入第二个数字（3）提示用户选择运算符（4）打印结果二、代码实现a = int(input("请输入第一个数："))b = int(input("请输入第二个数："))symbol = input("请输入四则运算符号：(+-*/)")if symbol == "+": print("%s%s%s=%s"%(a,symbol,b,a+b))elif symbol == "-": print("%s%s%s=

2020-10-05 17:41:34 39484 3

原创 RDD 的五大特性（详细解析）

RDD 的五大特性一、简介版二、详细版一、简介版（1）A list of partitions一组分区：RDD由很多partition构成，有多少partition就对应有多少task（2）A function for computing each split一个函数：对RDD做计算，相当于对RDD的每个split或partition做计算（3）A list of dependencies on other RDDsRDD之间有依赖关系，可溯源（4）Optionally, a P

2020-09-28 17:20:16 7473

原创 Cache缓存和checkpoint检查点的区别

（1）Cache缓存只是将数据保存起来，不切断血缘依赖。Checkpoint检查点切断血缘依赖。（2）Cache缓存的数据通常存储在磁盘、内存等地方，可靠性低。Checkpoint的数据通常存储在HDFS等容错、高可用的文件系统，可靠性高。（3）建议对checkpoint()的RDD使用Cache缓存，这样checkpoint的job只需从Cache缓存中读取数据即可，否则需要再从头计算一次RDD。（4）如果使用完了缓存，可以通过unpersist（）方法释放缓存。...

2020-09-25 19:05:10 2207

原创 MySQL与Redis的区别与联系（详细解析！！！）

MySQL与Redis的区别与联系一、MySQL和Redis的数据库类型二、MySQL和Redis的运行机制三、什么是缓存数据库？四、Redis和MySQL的区别总结4.1 数据库类型4.2 数据库作用4.3 业务需求4.4 应用场景4.5 数据存放位置4.6 存放数据类型(常用)五、数据可不可以直接全部用Redis存储？一、MySQL和Redis的数据库类型1、Mysql是关系型数据库，主要用于存放持久数据，将数据存放在硬盘中，读取速度相对较慢。2、Redis是NOSQL数据库，即非关系型数据库，也

2020-09-24 17:34:23 15398 1

空空如也

空空如也