嗯୧⍤⃝
码龄5年
求更新 关注
提问 私信
  • 博客:27,631
    问答:1,201
    动态:72
    28,904
    总访问量
  • 21
    原创
  • 60
    粉丝
  • 77
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
加入CSDN时间: 2020-09-16
博客简介:

qq_50859962的博客

查看详细资料
个人成就
  • 获得21次点赞
  • 内容获得20次评论
  • 获得125次收藏
  • 代码片获得1,671次分享
  • 博客总排名895,499名
创作历程
  • 10篇
    2022年
  • 11篇
    2021年
成就勋章
TA的专栏
  • 笔记
    12篇
  • python爬虫实操
    4篇
  • 大数据
    6篇

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 9

TA参与的活动 0

兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

新星杯·14天创作挑战营·第13期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛!注: 1、参赛者可以进入活动群进行交流、互相鼓励与支持(开卷),虚竹哥会分享创作心得和涨粉心得,答疑及活动群请见:https://bbs.csdn.net/topics/619781944 【进活动群,得奖概率会更大,因为有辅导】 2、文章质量分查询:https://www.csdn.net/qc

80人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 资源
  • 代码仓
  • 问答
  • 帖子
更多
  • 最近

  • 文章

  • 专栏

  • 资源

  • 代码仓

  • 问答

  • 帖子

  • 社区

  • 视频

  • 课程

  • 关注/订阅/互动

  • 收藏

搜索 取消

hive整合hbase出现报错

发布问题 2022.05.02 ·
0 回答

启动hbasesink时报错Failed to identify the fs of dir hdfs://ns/hbase/lib, ignored,如何解决?

发布问题 2022.01.26 ·
1 回答

主成分分析(pca)

# -*- coding: utf-8 -*-"""Created on Fri Dec 3 10:09:23 2021@author: 继续革命"""import numpy as npimport pandas as pddf=pd.read_csv(r'/nba_data本赛季.csv')print(df.shape)df.columns=['sepal_len','sepal_wid', 'petal_len','petal_wid','class']p
原创
博文更新于 2022.01.22 ·
244 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

爬取知乎图片

import requestsfrom lxml import etree url='https://zhuanlan.zhihu.com/p/408232419'headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36 Edg/96.0.1054.29' }re
原创
博文更新于 2022.01.19 ·
292 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

主题分析()

import numpy as npimport jieba# 文档链表with open('十九大报告.txt','r') as f: docment=[] docment.append(f.read())# 进行分词,并存入list:result = []for doc in docment: document3_cut = jieba.cut(doc) result.append(' '.join(document3_cut)) # 获取词频向量:f
原创
博文更新于 2022.01.18 ·
289 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

聚类分析(k均值聚类)

from sklearn import datasetsimport matplotlib.pyplot as pltfrom sklearn.cluster import KMeansimport pandas as pddf=pd.read_csv('iris.csv')#加载数据集lris_df = datasets.load_iris()#挑选出前两个维度作为x轴和y轴#聚类前x_axis = lris_df.data[:,0]y_axis = lris_df.data
原创
博文更新于 2022.01.17 ·
295 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

爬虫动态采集

爬取各地区gdp数据并保存import requestsimport json.encoderimport pandas as pdimport matplotlib.pyplot as plt# 获取数据def getData(): headers = { 'Connection': 'keep-alive', 'Accept': 'application/json, text/javascript, */*; q=0.01', 'X-R
原创
博文更新于 2022.01.16 ·
345 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

实现图片二值化

from PIL import Imageimg = Image.open('xx.jpg') # 模式L”为灰色图像,它的每个像素用8个bit表示,0表示黑,255表示白,其他数字表示不同的灰度。Img = img.convert('L')Img.save("xpr1.jpg") # 自定义灰度界限,大于这个值为黑色,小于这个值为白色threshold = 200 table = []for i in range(256): if i < threshold:
原创
博文更新于 2022.01.15 ·
2126 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

预测nba本赛季球队夺冠的胜率并进行相关分析

import numpy as npimport joblibimport pandas as pd #数据分析库import os,glob #os基本的系统控制(读写),glob(正则表达式的文件读取)from collections import Counterimport matplotlib.pyplot as pltimport seaborn as snsimport warnings #去除警告提示的from pyecharts.c
原创
博文更新于 2022.01.14 ·
718 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

数据库的内容怎么存放到服务器中呢

如题,怎么将数据库中的表放到服务器中,编写的软件如何连接数据库
原创
博文更新于 2022.01.13 ·
655 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

pca降维法

降维是数据处理中一个常见的步骤,它可以将多维的数据降到二维甚至更低,而降维后的数据完全可以表示原数据其中,pca降维法是我们最常用的一种数据我用的是之前文章中爬取的nba赛事数据def pca_data(data): from sklearn.decomposition import PCA x=data.drop(data.columns[0],axis=1) #x1=x.drop('冠军',axis=1) pca =PCA(n_components='mle') #
原创
博文更新于 2022.01.12 ·
724 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

大数据上手项目(第五天)hadoop-ha(高可用)配置

什么是hadooop,什么是hadoop-ha(高可用)hadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YARN,HDFS和Mapreduce下图是hadoop生态系统,集成spark生态圈。在未来一段时间内,hadoop将于spark共存,hadoop与spark都能部署在yarn、mesos的资源管理系统之上2
原创
博文更新于 2022.01.11 ·
841 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

大三学生,数据科学与大数据技术专业,想找一个实习工作,在哪里找啊

发布动态 2021.12.24

大数据上手项目(第四天)创建新用户并安装配置zookeeper

我
原创
博文更新于 2021.11.24 ·
1634 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python爬虫实操|懂的都懂

本来想学习一下动态网页的爬取,准备爬知乎没想到啊没想到,爬到了一堆好东西直接上代码import requestsfrom lxml import etree url='https://zhuanlan.zhihu.com/p/408232419'headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.466
原创
博文更新于 2021.11.23 ·
557 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

大数据上手项目(第三天)jdk的配置和时钟同步服务

1、关闭防火墙,selinux在安装jdk之前先关掉防火墙,以及SELINUXsystemctl stop firewalld.service #直接关闭防火墙systemctl disable firewalld.service #禁止开机自启动打开selinux的conf目录vi /etc/selinux注释掉下面两行并添加#SELINUX=enforcingSELINUX=disabled#SELINUXTYPE=targeted完成后需要重启2、jdk安装在根目录下新
原创
博文更新于 2021.11.23 ·
1137 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

查看本机ip信息

win+R输入cmd输入ipconfig
原创
博文更新于 2021.11.21 ·
1413 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

大数据上手项目(第二天)静态ip的配置以及修改主机名

在成功登录虚拟机后,应该设置静态ip,这样方便后面的配置这里就是手把手教学vi /etc/sysconfig/network-scripts/ifcfg-ens33需要注意的是:BOOTPROTO=dhcp需要改成static,dhcp是自动获取ip地址,static是静态ip地址ONBOOT=no改成yes,启动网络服务添加IPADDR=你的ip,GATEWAY=网关地址,NETMASK=255.255.255.0,DNS1=8.8.8.8大部分人都卡在了网关地址上点击右上角编辑
原创
博文更新于 2021.11.21 ·
2118 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

kafka启动报错,java.lang.NoSuchMethodError: org.apache.zookeeper.ZooKeeper.multi(Ljava/lang/Iterable;Lorg/apache/zookeeper/AsyncCallback$MultiCallback;Ljava/lang/Object;)V

答:

我也有这个问题,你解决了吗

回答问题 2021.11.21

linux镜像文件的下载

下载地址:http://archive.kernel.org/centos-vault/6.1/isos/x86_64/后缀iso为压缩文件minimal是迷你版,其中缺少一些东西,但是日常学习够用了可以按照自己的要求下载
原创
博文更新于 2021.11.20 ·
988 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多