XQLR-CSDN博客

localhost: full log in /root/install/spark-2.4.5-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-hadoop5.out原因：打开此文件后，发现java.net.BindException: 无法指定被请求的地址: Service ‘sparkWorker’ failed after 16 retries (on a random free port)!解决方法：v

2022-03-26 14:05:06 2009

原创域名被防火墙屏蔽后的解决方法(ERR_CONNECTION_RESET)

域名被防火墙屏蔽后的解决方法(ERR_CONNECTION_RESET)加粗样式

2022-01-03 14:01:15 5539

原创 VMware网络配置——NAT篇

VMware网络配置——NAT篇

2022-01-03 09:13:00 610

原创 Java利用ASCII码转换英文字母遇到的小问题

public class Seconde { public static void main(String[] args) { int a = 65, b = 97; for(int i=1;i<26;i++){ a += 1; b += 1; System.out.println((char)a+ ' ' +(char)b); } }}运行结果为：196

2021-11-27 15:58:59 632 1

原创 Ubuntu安装微信

原文连接1.下载Wine环境包： http://archive.ubuntukylin.com/software/pool/partner/ukylin-wine_70.6.3.25_amd64.deb 2.下载微信（wine）包：http://archive.ubuntukylin.com/software/pool/partner/ukylin-wechat_3.0.0_amd64.deb 3.终端输入：sudo apt-get install -f -y ./ukylin-wine

2021-11-26 15:40:38 476

原创 RPM包安装命令

RPM包安装命令

2021-11-21 14:36:21 619

原创 git提交ssh时报错

一、1.报错语句Access deined: DeployKey does not support push codefatal: 无法读取远程仓库。请确认您有正确的访问权限并且仓库存在。2.应对方法ls -al ~/.sshrm ~/.ssh/id_rsa.pubrm ~/.ssh/id_rsa二、1.报错语句error: 远程 origin 已经存在。2.应对方法git remote rm origin之后再重新连接git remote add origin

2021-07-18 11:01:03 317

原创 windows安装git并连接至gitee

一、安装git打开此链接直接安装即可https://git-scm.com/download/win全部内容都勾选系统推荐默认即可二、安装cmder用cmder代替windows自带的cmd，因cmder带有更多功能在这里下载并安装https://cmder.net/三、git连接到gitee作为远程仓库cmder中，（1）全局设置git config --global user.name "姓名" # 替换成你的名字$git config --global user.email "邮

2021-07-17 14:01:37 613

原创 mysql安装及安装时可能遇到的问题

一、官网下载mysqlhttps://dev.mysql.com/downloads/mysql/二、下载后解压缩三、在解压的目录下，创建my.ini文本文件写入如下内容：其中的basedir和datadir目录需修改为自己的目录[mysqld]# 设置3306端口port=3306# 设置mysql的安装目录,可以更改basedir=~~D:\download\mysql\mysql-8.0.23-winx64~~ # 设置mysql数据库的数据的存放目录,可以更改datadir

2021-07-16 12:18:44 604

转载网易游戏基于Flink的流式ETL建设

1.业务背景2.专用ETL3.EntryX通用ETL4.调优实践5.未来规划一、业务背景1.网易游戏ETL服务概况基础数据：主要日志方式采集数据结构：非结构化或半结构化数据流程：日志数据通过数据集成ETL才可以入库至实时或离线的数据仓库。数据集成的数据流：主要有游戏客户端日志、游戏服务端日志和其他周边基础的日志，比如Nginx access log、数据库日志等等。流程：这些日志会被采集到统一的Kafka数据管道，然后经由ETL入库服务写入到Hive离线数据仓库或者Kafka实时数据

2021-06-10 14:35:23 564

原创如何把numpy的int32转化为字符串

用astype方法df = { '学号':number, '平时成绩':grade, '期末成绩':last_grade}work = pd.DataFrame(df)work['学号'].count()).astype(str)

2021-06-03 15:31:38 1020

原创 ubuntu安装搜狗输入法

Ubuntu安装搜狗输入法一、打开火狐浏览器，进入搜狗输入法的网站，下载搜狗输入法的linux版。二、下载后，在桌面操作，进入下载的目录，在目录空白处按鼠标右键，进入终端三、在终端输入： sudo dpkg -i sogoupinyin_2.4.0.3469_amd64.deb（sudo dpkg -i后面为文件名）四、如果报错说缺少依赖，则输入sudo apt -f install五、执行第三步安装六、在桌面打开ubuntu设置，切换到“区域与语言”选项。单击管理以安装的语言，选择`添加或删

2021-04-08 10:48:06 434

原创源文件的编码环境

默认情况下，python的源码文件是UTF-8，这种编码支持世界上大多数语言的字符，可以用于字符串字面值、变量、函数名及注释——尽管标准库只用常规的ASCII字符作为变量名或函数名，可移植代码都应遵守此约定，要正确现实这些字符，编辑器必须能识别UTF-8编码，而且必须使用支持文件中所有字符的字体。若不使用默认编码，则要生命文件的编码，文件的第一行要写成特殊注释，句法如下：# -*- coding: encoding -*-比如，声明使用windows-1252编码，源码文件要写成：# -*.

2021-04-03 13:01:16 215

原创默认赋值、nonlocal、global如何影响变量绑定

文章目录代码：结果显示：说明：代码：def scope_test(): def do_local(): spam = "local spam" def do_nonlocal(): nonlocal spam spam = "nonlocal spam" def do_global(): global spam spam = "global spam" spam = "test spam" do_local() print("After local assignment:

2021-04-01 16:10:56 160

原创 jupyter报错

1.打开anaconda jupyter notebook时报错Traceback (most recent call last):File “E:\python\anaconda\Scripts\jupyter-notebook-script.py”, line 6, infrom notebook.notebookapp import mainFile “E:\python\anaconda\lib\site-packages\notebook\notebookapp.py”, line 64,

2021-03-31 13:31:31 4145

原创类

1.类：对某一类实物的的描述，是抽象的2.对象：实际存在的属该类事物的具体个体3.一般来说，类是由数据成员与函数成员封装而成的，其中数据成员表示类的属性，函数成员（即程序代码）表示类的行为，4.例子：一个圆柱体类，属性：颜色、半径、大小方法：底半径和体积这两个函数...

2021-03-30 15:00:43 137

原创静态网页正则表达式爬取图片并保存

因为https://desk.zol.com.cn/fengjing/恰好为静态网页，requests返回的东西有我们想要的东西，所以用最基础的正则表达式来爬取图片并保存。import requestsimport redef get_html(url): headers = { 'user-agent': 'Mozilla/5.0 (MSIE 10.0; Windows NT 6.1; Trident/5.0)' } html = requests.get(u

2021-03-29 12:34:00 281

原创正则表达式爬取网页实战

文章目录网址：[猫眼电影排行榜](https://maoyan.com/board/4/)1.前提2.确定爬取目标3.页面分析4.正则表达式5.最终完整代码网址：猫眼电影排行榜1.前提首先，Chrome浏览器，右键点击“检查”，打开开发者模式，切换到network，点击当前页面4/。点开后，切换到response，查看源代码。若是直接看elements中的代码，有可能和源代码不同，因为那是经过浏览器加工后的代码。2.确定爬取目标我们爬取出电影序号，电影名称，图像链接，主演，电影上映时间3.页面

2021-03-27 09:17:54 2442

原创正则表达式

文章目录先附上一个正则表达式的检测网址：[正则表达式测试工具](https://tool.oschina.net/regex/)1.常用的匹配规则2.match（）3.匹配目标4.通用匹配5.贪婪与非贪婪6.修饰符7.转义匹配8.search（）9.findall（）10.sub（）11.compile（）先附上一个正则表达式的检测网址：正则表达式测试工具1.常用的匹配规则模式描述\w匹配字母、数字及下划线\W匹配不是字母、数字及下划线的字符\s匹配任意空白字符，

2021-03-26 16:45:19 179

原创 Numpy中关于深拷贝、浅拷贝和视图的知识点

一、numpy深拷贝通过深拷贝得到的变量值互不干扰，其中一个变量的值改变时，不影响其他变量的值其中，g是e的深拷贝，当e的第一个值改变时，g的值不变，且e和g的内存地址不同。二、numpy浅拷贝浅拷贝共享内存，当一个变量数值改变时，另一个数值也将改变。内存地址也一块变化。三、视图视图一个变量改变数值，另一个变量也改变数值，但是内存地址不变。...

2021-03-19 17:25:36 129

原创爬虫设置http代理的方法

文章目录一、寻找代理IP寻找http代理平台神龙http（注册后可在1天内免费得到1000ip）蜻蜓代理免费IP代理网二、设置nginx1.下载nginx2.下载后，解压缩3.打开nginx的conf/nginx.conf文件（可使用记事本），在http{}中加入如下代码：4.打开nginx三、Chrome设置代理服务器四、requests库使用代理一、寻找代理IP寻找http代理平台神龙http（注册后可在1天内免费得到1000ip）蜻蜓代理其余更多的，可以参考这篇博客免费IP代理网二、设置

2021-03-19 11:57:36 1585

原创爬虫基础概念

文章来自牛客网友一、什么是爬虫和反爬虫爬虫：使用任何技术手段，批量获取网站信息的一种方式反爬虫：使用任何技术手段，阻止别人批量获取自己网站的一种方式二、常见的反爬虫机制1.通过UA识别爬虫：有些爬虫的UA是特殊的，与正常浏览器的不一样，可通过识别特征UA，直接封掉爬虫请求2.设置IP访问频率，如果超过一定频率，则封掉爬虫请求3.弹出验证码：如果输入正确的验证码，则放行，如果没有输入，则拉入禁止一段时间，如果超过禁爬时间，再次触发验证码，则拉入黑名单。当然根据具体的业务，为不同场景设置不同阈值，

2021-01-18 20:24:43 138

原创爬取某学校教务处发布的含有申报的通知的正文、标题、日期、链接

一、首先爬取所有的申报通知的网址链接import requestsimport refrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ecimport pandas as pdfrom bs4 import Beautifu

2021-01-18 19:40:34 336

原创崔庆才爬虫训练网址第一题ssr1

崔庆才爬虫训练网址一import requestsfrom bs4 import BeautifulSoupimport timeimport reimport pandas as pdheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/87.0.4280.141

2021-01-16 19:26:49 664

原创 python怎么去除字符串的空格、回车

内容取此str = ' 123 456 'print(str.strip())#去除左右两边的空格print(str.lstrip())#去除左边的空格print(str.rstrip())#去除右边的空格print(str.replace(' ',''))#去除字符串全部空格str = '123' \ '456'print(str.replace('\n',''))#去除换行print(str.replace('\r',''))#去除换行print(str.re

2021-01-16 19:10:48 5272 1

原创 selenium免登录

selenium免登录文章目录一、案例用selenium免登录淘宝网二、代码 1 import json 2 import time 3 from selenium import webdriver 4 browser = webdriver.Chrome('E:/python/chromedriver.exe') 5 #导入webdriver 6 url = 'https://www.taobao.com/' 7 browser.get(url) 8 t...

2020-10-28 08:22:11 353

原创 Selenium各种操作解析

Selenium各种操作解析文章目录一、安装Selenium二、安装WebDriver三、使用chromedriver四、Selenium的使用方法五、查找节点六、节点交互动作链1.模拟鼠标移动（move_to_element)2.将一个节点拖到另一个节点上（drag_and_drop)八、执行JavaScript代码九、获取节点信息十、管理cookies十一、改变节点的属性值Selenium本质上是一款自动化测试工具，主要用于测试Web应用。对动态网页（用JavaScript渲...

2020-10-28 08:20:57 325

原创 Scarpy爬取静态网页信息

Scarpy爬取静态网页信息文章目录Scarpy爬取静态网页信息一、案例说明二、Scarpy操作三、代码四、存储为csv文件一、案例说明用Scarpy爬取湖北经济学院经院要闻新闻的标题、网址，http://news.hbue.edu.cn/jyyw/list.htm。需注意：动态网页的源代码，被浏览器加工后，可能与源代码不同。二、Scarpy操作（1）在电脑开始菜单中，搜索cmd并打开（2）在cmd中，切换到写scrapy文件的位置。例如我要写到我的e盘python文件夹中。所以先输入e：进入

2020-10-28 08:16:13 355

原创用requests和BeautifulSoup爬取静态网页

用requests和BeautifulSoup爬取静态网页一、案例说明本案例使用requests和BeautifulSoup爬取湖北经济学院经院要闻的前2页新闻标题、日期、发布者、内容二、爬虫思路首先找到网址（http://news.hbue.edu.cn/jyyw/list.htm）的页面，右键“检查”，显示出开发者模式发现每页的新闻网址都为（http://news.hbue.edu.cn/jyyw/list+数字.htm），所以可以根据这个信息来爬取不同的新闻网页发现每页新闻的网址都在spa

2020-10-28 08:12:34 378

原创 matplotlib绘制图形

matplotlib文章目录matplotlib一、绘制饼图1.直接生成饼图2.用数组生成饼图一、绘制饼图1.直接生成饼图import matplotlib.pyplot as pltedu = [0.2515,0.3724,0.3336,0.0368,0.0057]#要生成图的数据labels = ['中专','大专','本科','硕士','其他']#各项数据顺序对应的文本标签plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']#防

2020-10-15 20:16:22 561

原创 Pandas基础操作

Pandas基础文章目录Pandas基础一、Series二、DataFrame三、索引值四、索引和选取一、SeriesSeries讲解from pandas import Series,DataFrameimport pandas as pdobj = Series([1, -2, 3, -4])#自动生产索引与之对应type(obj)#查看series类型obj2 = Series([1, -2, 3, -4], index=['a', 'b', 'c', 'd'])#生成数组，指定

2020-10-05 07:34:38 1133 2

原创 Numpy基础操作

Numpy基础操作文章目录***Numpy基础操作***一、构建数组1.列表构建数组2.元组构建数组3.构建多维数组4.数组行列与元素类型5.全1数组与全0数组6.arange生成数组7.改数组为全18.astype()函数改DataFrame某列的数据类型二、数据重塑合并1.转换数组形状2.将多维数组转为1维数组3.concatenate函数拼接数组4.vstack函数垂直（按照行顺序）的把数组给堆叠起来5.hstack水平(按列顺序)把数组给堆叠起来6.split（(ary, indices_or_s

2020-10-03 14:23:34 345

原创 sklearn基本操作代码练习

系列文章目录文章目录系列文章目录一、datasets（数据集）二、preprocessing（预处理和规范化）三、linear_model（线性模型）一、datasets（数据集）from sklearn import datasetsboston = datasets.load_boston()#加载并返回波士顿房价数据集（回归）import pandas as pdfrom sklearn import datasetsboston = datasets.load_boston()bo

2020-10-01 19:12:09 747

sgsdsdd的博客

原创【无标题】

原创 Spark启动报错