予过天晴-CSDN博客

原创 Linux上安装配置hive

安装hive的前提条件有：hadoop已安装mysql已安装开始安装1.hive下载下载链接【选择自己想要下载的版本】下面以apache-hive-2.3.3-bin.tar.gz 为例2.使用xshell的rz命令上传到linux3.解压到 /usr/localtar -zvxf apache-hive-2.3.3-bin.tar.gz -C /usr/local4.重命名mv /usr/local/apache-hive-2.3.3-bin /usr/local/hive

2021-08-10 10:33:45 514

原创 linux使用tar包安装mysql

1.下载mysql的tar包下载地址【按需选择版本】注：我使用的是【mysql-5.7.19-linux-glibc2.12-x86_64.tar.gz】2.使用xshell将本地tar包上传到虚拟机rz #若文件过大可能出现乱码，报错等情况，可使用rz -be3.解压到/usr/localtar -vzxf mysql-5.7.19-linux-glibc2.12-x86_64.tar.gz -C /usr/local4.重命名mv /usr/local/my

2021-08-09 18:01:01 5605 3

原创 linux下单机hadoop的安装与配置

1.首先创建好一个CentOS虚拟机，我这里起名为master，名称随意，不固定要求。2.VMware或Xshell 打开虚拟机，安装配置JDK。不要使用系统自带的openJDK版本。3.检查防火墙，若防火墙处于running状态，则执行第4和第5步，否则直接进入第6步。systemctl status firewalld.service4.关闭防火墙，命令行：systemctl stop firewalld.service5.禁用防火墙，命令行：systemctl disable fir

2021-08-02 09:58:45 852

原创 linux下java的安装

linux下安装java1.检查系统是否安装java/jdk，若安装可先卸载。a.直接输入命令：java --versionb.搜索java/jdk相关信息：rpm -qa | grep java 或 rpm -qa | grep jdkc.卸载系统目前有的java/jdk: rpm -e --nodeps [b搜索出的文件] 或 yum -y remove [b搜索出的文件]2.下载想要安装的java/jdk的tar包以java12为例：在https://repo.h

2021-07-29 15:04:11 142

原创国内镜像源收藏

1.java jdk下载https://repo.huaweicloud.com/java/jdk/2.hadoop 下载https://archive.apache.org/dist/hadoop/common/3.hive 下载https://archive.apache.org/dist/hive/https://mirrors.tuna.tsinghua.edu.cn/apache/hive/

2021-07-28 11:34:15 1200

原创 pandas统计函数count，unique，nunique的区别

原始数据准备import pandas as pddf1=pd.DataFrame()df2=pd.DataFrame()df1['name']=['a','b','c','d','e','f','g']df2['name']=['a','b','c','d','e','f']df1['class']=['1','1','2','2','1','2','2']df2['grade_state']=['1','1','','2','2','3']df3=df1.merge(df2,how='l

2021-07-27 14:37:12 5272 1

原创美国新冠3-11月确诊人数和死亡人数统计分析

背景：新冠在美国的传播分析数据来源：Johns Hopkins代码实现：import pandas as pdimport matplotlib.pyplot as pltfrom sklearn import metricsimport warningswarnings.filterwarnings("ignore")fig=plt.figure()plt.rcParams["font.sans-serif"] = "SimHei"plt.rcParams['axes.unicode

2020-12-12 10:34:12 2892 1

原创腾讯招聘数据分析

项目背景：腾讯招聘网站是腾讯公司对外招聘的一个网站，通过对其内数据分析腾讯公司各事业群对人员的需求，以及城市分布。数据来源：https://careers.tencent.com/search.html提出问题：今天是2020年12月10日，通过对该天腾讯招聘网站所有招聘信息分析腾讯对人员的需求状况。获取数据：使用python的request模块进行数据爬取（7574条数据）数据预处理查看数据信息数据列索引0 BGName 腾讯事业群1 CategoryNam

2020-12-10 20:35:36 2797 1

原创 pycharm创建django项目时出错

在自定义Django虚拟环境下创建项目，最常见的方法是通过命令行去创建，步骤如下：1.创建一个新的目录用于存放项目2.进入该目录，然后在此处打开命令窗口，激活Django虚拟环境3.创建项目，在命令行输入：python-admin startproject code（code为自定义的项目名称）4.测试，进入所创项目，使用命令行输入：python manage.py runserver5.访问，在浏览器输入127.0.0.1：8000访问但由于pycharm的普遍使用，创建项目更加简单，不需要命

2020-10-13 16:20:46 5680 4

原创面试题关于迭代器和生成器

提到python的迭代器，首先要说的是可迭代对象，简单来说，可迭代对象就是一个能够被循环遍历的对象，同时也是一个包含__iter__()魔术方法的对象。而迭代器简单来说就是一个可以记住遍历位置的对象，同时也是一个包含__next__()魔术方法的对象。迭代器只能按照顺序访问数据，一旦提取数据，迭代器就会释放该数据的内存，也就是说该数据已经不存在了。那么如何创建迭代器以及如何获取迭代器的数据？1.创建 iter(可迭代对象)/可迭代对象.iter()2.获取数据 next(迭代器)/迭代器.next(

2020-09-15 08:59:23 421

原创 re的简单练习

1.a= “abbbccc”，用正则匹配为 abccc,不管有多少b，就出现一次？import rea= "abbbccc"print(re.sub("b+","b",a))2.写出开头匹配字母和下划线，末尾是数字的正则表达式？import reres="a_0ds23h1234"print(re.findall("^[a-zA-Z_]+.{1,}\d$",res))3.匹配一个手机号import rephone="15567865678"print(re.findall("^1[

2020-09-03 20:52:02 402

原创列表练习：斐波那契数列

方法一（普通方法）f1=1f2=1lst=[1,1]print(f"第1项数据是{f1}")print(f"第2项数据是{f2}")for i in range(3,11): f3=f1+f2 print(f"第{i}项数据为{f3}") lst.append(f3) f1=f2 f2=f3print(lst)方法二（递归方法）lst=[]def func(num): if num==1: return 1 if

2020-08-31 20:16:56 1026

原创多任务中一些名词区别

多任务就是指同一时间或同一时间段同时执行多个任务，但其中涉及到了不少名词，比如：并发和并行；同步和异步；线程和进程。下面简单介绍一下区别：1.并发和并行。并发：在操作系统中，是指一个时间段中有几个程序都处于已启动运行到运行完毕之间，且这几个程序都是在同一个处理机上运行，但任一个时刻点上只有一个程序在处理机上运行。并行：当系统有一个以上CPU时,则线程的操作有可能非并发。当一个CPU执行一个线程时，另一个CPU可以执行另一个线程，两个线程互不抢占CPU资源，可以同时进行。简单来说就是：并行是多个任务同

2020-08-31 19:40:21 208

原创 os模块的rename方法练习

os---------Operation System(操作系统),os模块主要是和操作系统交互的模块，os模块的rename方法是对文件的重名。os.rename(old,new)示例如下：#用法一#需求：对当前文件夹的1.txt重命名为2.txtimport osos.rename("1.txt","2.txt")#用法二#需求：对指定文件夹(E:\Git)的1.jpg重命名为2.jpgimport os#由于在pathon中“\”是转义符，直接用可能python先转义后执行，出

2020-08-27 11:04:27 457

原创图片和视频的复制操作

在python中，有时候必不可少对图片和视频进行操作，比如爬虫。。这里简单介绍一下图片和视频的复制操作：“””图片的复制需求：将F盘下practise文件夹的1.jpg复制到当前文件夹“””#打开指定路径下的jpg文件（br表示对二进制文件的读取）f1 = open(r"F:\practise\1.jpg", "br")#读取该文件的全部内容并存在一个变量中res = f1.read()#关闭该文件（用这种方法不能忘记关闭文件）f1.close()#打开当前文件夹的1.jpg（wb表

2020-08-26 19:29:06 733

原创面向对象的封装问题（一道面试题）

面试题: 请解释一下为什么python中面向对象开发时,两个下划线开头的属性不能直接访问,编写代码就是为了来运算的,不能访问还有什么意义？答：a.属性私有化是python层面的操作,底层解释器在解释时将两个下划线开头的属性性进行了自动转换,变成了“_类名__属性名”的形式,原来的“__属性名称”已经不存在了,所以不能直接访问,但是可以通过转换后的语法来访问,但是不推荐b.数据就是参与运算的,私有化属性数据有两个用途,第一可以用在当前类型中的业务流程中,如对象的一个临时属性方法等等,第二可以使用类提供的

2020-08-24 21:12:04 263

m0_49705298的博客